← heapsort-ai

Translation

38 items

RESEARCH↑ trendingReddit r/MachineLearning·4/14/2026

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

Dieser Inhalt präsentiert eine Benchmark-Studie, die sechs große Sprachmodelle (LLMs), darunter TranslateGemma-12b, bei der Übersetzung englischer Untertitel in sechs Sprachen bewertet. Die Modelle wurden anhand referenzfreier Qualitätsbewertungsmetriken (QE) und einer maßgeschneiderten kombinierten Metrik namens TQI eingestuft, wobei TranslateGemma-12b insgesamt das leistungsstärkste Modell war.

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]
70
RESEARCH↑ trendingReddit r/LocalLLaMA·4/14/2026

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch

Eine Studie verglich TranslateGemma-12b mit fünf führenden LLMs bei der Untertitelübersetzung für sechs Sprachpaare und zeigte, dass das aufgabenspezifische Modell allgemeine Modelle durchweg übertraf. Obwohl erste Zahlen einen klaren Sieg andeuteten, ergab die menschliche Qualitätssicherung einen erheblichen Haken, der im vollständigen Bericht detailliert beschrieben wird.

We benchmarked TranslateGemma-12b against 5 frontier LLMs on subtitle translation - it won across the board, with one significant catch
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/21/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

Der Autor berichtet über seine Erfahrungen mit verschiedenen KI-Modellen (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) zur Übersetzung eines chinesischen Romans, wobei er Herausforderungen bei der Namenskonsistenz und unerwartete Zensur hervorhebt. Chat GPT 4o war anfänglich am besten in Bezug auf Genauigkeit und Übersetzungsqualität, doch einige Modelle zeigten im Laufe der Zeit eine Verschlechterung oder Filterung.

35
ARTICLEDEV.to AI·vor 18T

How I use an LLM as a translation judge

Der Autor nutzt GEMBA-MQM v2, ein LLM-basiertes System, zur automatischen Bewertung der Übersetzungsqualität, das Fehler nach Typ und Schweregrad klassifiziert. Obwohl es eine hohe Korrelation mit menschlichen Annotationen aufweist, ist das System anfällig für Rauschen und erfordert mehrere Durchläufe, um die Variabilität der Bewertungen zu mindern.

27