RESEARCH27

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv CS.CL·26. Mai 2026

Dieser Artikel untersucht Fehler in Audio-LLMs bei der Transkription von Englisch-Mandarin-Code-Switching-Sprache, wobei Probleme wie Sprachoauslassung und Übersetzung identifiziert werden. Die Anwendung der Direkten Präferenzoptimierung (DPO) richtet Modelle darauf aus, gemischtsprachige Inhalte zu bewahren, was zu signifikanten Reduktionen der Mixed Error Rate (MER) führt.

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization Speech Recognition

Original lesen ↗