RESEARCH27
Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech
arXiv CS.CL·24. April 2026
Diese Arbeit stellt Hierarchical Policy Optimization (HPO) für die simultane Sprachübersetzung (SST) mittels LLMs vor, um Herausforderungen wie hohe Rechenkosten und unvollkommene Trainingsdaten zu bewältigen. HPO verwendet eine hierarchische Belohnung, um Übersetzungsqualität und Latenz auszugleichen, und zeigt erhebliche Verbesserungen der COMET- und MetricX-Scores.
Original lesen ↗