RESEARCH27

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv CS.CL·26 de mayo de 2026

Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization Speech Recognition

Leer original ↗