← heapsort-ai

benchmark

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·14/04/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Une étude a comparé TranslateGemma-12b à cinq LLM de pointe pour la traduction de sous-titres dans six paires de langues, montrant que le modèle spécifique à la tâche a constamment surpassé les modèles généralistes. Bien que les chiffres initiaux aient indiqué une victoire nette, l'assurance qualité humaine a ajouté une nuance importante qui sera détaillée dans le rapport complet.

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch
42
RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·17/04/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround est un nouveau benchmark rigoureux pour la mémoire à long terme des LLM, conçu pour surmonter les limitations des évaluations statiques grâce à des scénarios interactifs gamifiés. Il propose un cadre hiérarchique à trois niveaux pour évaluer différents types de mémoire et une suite de métriques multidimensionnelles pour une quantification complète.

27
RESEARCHarXiv CS.CL·21/04/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS introduit le premier benchmark chinois de détection de sarcasme multimodal et à grain fin, composé de 2 796 paires image-texte avec des annotations à triple niveau. Cet ensemble de données vise à améliorer la compréhension sémantique fine et le raisonnement métaphorique des modèles d'IA, répondant aux limitations des benchmarks existants.

27
RESEARCHarXiv CS.CL·06/04/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

27