RESEARCHarXiv CS.CL·4/24/2026
Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech
Diese Arbeit stellt Hierarchical Policy Optimization (HPO) für die simultane Sprachübersetzung (SST) mittels LLMs vor, um Herausforderungen wie hohe Rechenkosten und unvollkommene Trainingsdaten zu bewältigen. HPO verwendet eine hierarchische Belohnung, um Übersetzungsqualität und Latenz auszugleichen, und zeigt erhebliche Verbesserungen der COMET- und MetricX-Scores.
27