RESEARCH27

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv CS.CL·26 mai 2026

Cet article étudie les défaillances des LLM audio lors de la transcription de la parole à commutation de code anglais-mandarin, identifiant des problèmes comme l'omission de langue et la traduction. L'application de l'Optimisation par Préférence Directe (DPO) aligne les modèles pour préserver le contenu multilingue, entraînant des réductions significatives du Taux d'Erreur Mixte (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization Speech Recognition

Lire l'original ↗