← heapsort-ai

benchmark

10 items

RESEARCH↑ trendingReddit r/LocalLLaMA·14/4/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Un estudio comparó TranslateGemma-12b con cinco LLM de frontera en la traducción de subtítulos para seis pares de idiomas, revelando que el modelo específico para la tarea superó consistentemente a los modelos de propósito general. Aunque los números iniciales mostraron una victoria clara, el control de calidad humano añadió una salvedad importante que se detallará en el informe completo.

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch
42
RESEARCHarXiv CS.CL·10/4/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·17/4/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround es un nuevo y riguroso benchmark para la memoria a largo plazo de los LLM, diseñado para superar las limitaciones de las evaluaciones estáticas mediante escenarios interactivos gamificados. Presenta un marco jerárquico de tres niveles para evaluar diferentes tipos de memoria y un conjunto de métricas multidimensionales para una cuantificación exhaustiva.

27
RESEARCHarXiv CS.CL·21/4/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS presenta el primer benchmark chino de detección de sarcasmo multimodal y de grano fino, que comprende 2.796 pares de imagen-texto con anotaciones de triple nivel. Este conjunto de datos busca mejorar la comprensión semántica fina y el razonamiento metafórico en los modelos de IA, abordando las limitaciones de los benchmarks existentes.

27
RESEARCHarXiv CS.CL·6/4/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

27