RESEARCH27

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv CS.CL·May 26, 2026

This paper investigates failures in Audio LLMs when transcribing English-Mandarin code-switching speech, identifying issues like language omission and translation. Applying Direct Preference Optimization (DPO) aligns models to preserve mixed-language content, leading to significant reductions in Mixed Error Rate (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization Speech Recognition

Read original ↗