benchmark

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/16/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Das Qwen 3.6 35B A3B Modell erreicht 187 Tokens pro Sekunde auf einer RTX 5090 32GB GPU. Es unterstützt eine Kontextgröße von 120K, nutzt Q5 K S Quantisierung und eine Temperatur von 0,1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Tests zum spekulativen Decoding, bei denen Gemma 4 E2B als Entwurf für Gemma 4 31B verwendet wurde, zeigten eine bemerkenswerte Leistungsverbesserung. Die durchschnittliche Geschwindigkeit stieg um 29 %, erreichte in der Codegenerierung sogar 50 %, und das mit spezifischen Hard- und Softwarekonfigurationen.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/LocalLLaMA·5/1/2026

Qwen 3.6 27B vs Gemma 4 31B - making Packman game!

Ein lokaler LLM-Spieleentwicklungs-Wettbewerb verglich Qwen 3.6 27B und Gemma 4 31B bei der Erstellung eines Pac-Man-Spiels. Gemma 4 31B war der klare Gewinner und lieferte eine stärkere Spiellogik sowie höhere Qualität in deutlich kürzerer Zeit, obwohl Qwen mehr Token generierte.

code generation model comparison benchmark LLM

Qwen 3.6 27B vs Gemma 4 31B - making Packman game!

RESEARCH↑ trendingReddit r/LocalLLaMA·4/14/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Eine Studie verglich TranslateGemma-12b mit fünf führenden LLMs bei der Untertitelübersetzung für sechs Sprachpaare und zeigte, dass das aufgabenspezifische Modell allgemeine Modelle durchweg übertraf. Obwohl erste Zahlen einen klaren Sieg andeuteten, ergab die menschliche Qualitätssicherung einen erheblichen Haken, der im vollständigen Bericht detailliert beschrieben wird.

Translation Gemma benchmark AI

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

RESEARCHarXiv CS.CL·4/10/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHDEV.to AI·4/17/2026

A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability

Dieser Inhalt bietet eine umfassende Bewertung von ChatGPTs Zero-Shot Text-to-SQL-Fähigkeit, d.h. seiner Fähigkeit, natürliche Sprache ohne vorherige Beispiele in SQL-Abfragen umzuwandeln. Er untersucht die Leistung und die Grenzen des Modells bei dieser komplexen Aufgabe.

evaluation Text-to-SQL ChatGPT benchmark

RESEARCHarXiv CS.CL·4/17/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround ist ein neuer, strenger Langzeitgedächtnis-Benchmark für LLMs, der entwickelt wurde, um die Einschränkungen statischer Bewertungen durch reichhaltige, gamifizierte interaktive Szenarien zu überwinden. Er verfügt über ein dreistufiges hierarchisches Framework zur Bewertung verschiedener Gedächtnistypen und eine mehrdimensionale Metrik-Suite zur umfassenden Quantifizierung.

evaluation gamification memory benchmark

RESEARCHarXiv CS.CL·4/21/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS stellt den ersten feingranularen chinesischen multimodalen Sarkasmus-Erkennungs-Benchmark vor, bestehend aus 2.796 Bild-Text-Paaren mit dreifachen Annotationen. Dieser Datensatz zielt darauf ab, das feingranulare semantische Verständnis und das metaphorische Denken in KI-Modellen zu verbessern und bestehende Benchmark-Einschränkungen zu beheben.

Dataset multimodal AI natural language processing benchmark

RESEARCHarXiv CS.CL·4/6/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

evaluation diagnostic framework RAG benchmark

RESEARCHarXiv CS.AI·4/6/2026

ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

ESL-Bench é um benchmark longitudinal sintético e orientado a eventos. Ele foi desenvolvido para a avaliação de agentes de saúde, provavelmente envolvendo inteligência artificial.

synthetic data Agentes de Saúde IA na Saúde Healthcare