RESEARCHarXiv CS.CL·24/4/2026
Hierarchical Policy Optimization for Simultaneous Translation of Unbounded Speech
Este trabajo presenta la Optimización Jerárquica de Políticas (HPO) para la Traducción Simultánea de Voz (SST) utilizando LLMs, abordando desafíos como el alto costo computacional y datos imperfectos. HPO utiliza una recompensa jerárquica para equilibrar la calidad de traducción y la latencia, demostrando mejoras significativas en las puntuaciones COMET y MetricX.
27