quality evaluation — articles, actualités et recherches IA

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

Ce contenu présente une étude comparative évaluant six grands modèles linguistiques (LLM), dont TranslateGemma-12b, pour la traduction de sous-titres de l'anglais vers six langues. Les modèles ont été classés à l'aide de métriques d'évaluation de la qualité (QE) sans référence et d'une métrique combinée personnalisée appelée TQI, où TranslateGemma-12b s'est avéré être le modèle le plus performant.

TranslateGemma Translation Benchmarking quality evaluation

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

How I use an LLM as a translation judge

L'auteur utilise GEMBA-MQM v2, un système basé sur LLM, pour automatiser l'évaluation de la qualité des traductions, classifiant les erreurs par type et gravité. Bien qu'il présente une corrélation élevée avec les annotations humaines, le système est bruyant et nécessite plusieurs passages pour atténuer la variabilité des scores.