RESEARCH27
Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs
arXiv CS.CL·26 de mayo de 2026
Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).
Leer original ↗