← heapsort-ai

benchmark

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/14/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Eine Studie verglich TranslateGemma-12b mit fünf führenden LLMs bei der Untertitelübersetzung für sechs Sprachpaare und zeigte, dass das aufgabenspezifische Modell allgemeine Modelle durchweg übertraf. Obwohl erste Zahlen einen klaren Sieg andeuteten, ergab die menschliche Qualitätssicherung einen erheblichen Haken, der im vollständigen Bericht detailliert beschrieben wird.

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch
42
RESEARCHarXiv CS.CL·4/10/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·4/17/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround ist ein neuer, strenger Langzeitgedächtnis-Benchmark für LLMs, der entwickelt wurde, um die Einschränkungen statischer Bewertungen durch reichhaltige, gamifizierte interaktive Szenarien zu überwinden. Er verfügt über ein dreistufiges hierarchisches Framework zur Bewertung verschiedener Gedächtnistypen und eine mehrdimensionale Metrik-Suite zur umfassenden Quantifizierung.

27
RESEARCHarXiv CS.CL·4/21/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS stellt den ersten feingranularen chinesischen multimodalen Sarkasmus-Erkennungs-Benchmark vor, bestehend aus 2.796 Bild-Text-Paaren mit dreifachen Annotationen. Dieser Datensatz zielt darauf ab, das feingranulare semantische Verständnis und das metaphorische Denken in KI-Modellen zu verbessern und bestehende Benchmark-Einschränkungen zu beheben.

27
RESEARCHarXiv CS.CL·4/6/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

27