Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs
Dieser Artikel untersucht Fehler in Audio-LLMs bei der Transkription von Englisch-Mandarin-Code-Switching-Sprache, wobei Probleme wie Sprachoauslassung und Übersetzung identifiziert werden. Die Anwendung der Direkten Präferenzoptimierung (DPO) richtet Modelle darauf aus, gemischtsprachige Inhalte zu bewahren, was zu signifikanten Reduktionen der Mixed Error Rate (MER) führt.