← heapsort-ai

quality evaluation

2 items

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

Dieser Inhalt präsentiert eine Benchmark-Studie, die sechs große Sprachmodelle (LLMs), darunter TranslateGemma-12b, bei der Übersetzung englischer Untertitel in sechs Sprachen bewertet. Die Modelle wurden anhand referenzfreier Qualitätsbewertungsmetriken (QE) und einer maßgeschneiderten kombinierten Metrik namens TQI eingestuft, wobei TranslateGemma-12b insgesamt das leistungsstärkste Modell war.

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]
70
ARTICLEDEV.to AI·vor 18T

How I use an LLM as a translation judge

Der Autor nutzt GEMBA-MQM v2, ein LLM-basiertes System, zur automatischen Bewertung der Übersetzungsqualität, das Fehler nach Typ und Schweregrad klassifiziert. Obwohl es eine hohe Korrelation mit menschlichen Annotationen aufweist, ist das System anfällig für Rauschen und erfordert mehrere Durchläufe, um die Variabilität der Bewertungen zu mindern.

27