RESEARCH27

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

arXiv CS.CL·26 de maio de 2026

Este artigo investiga falhas em LLMs de Áudio ao transcrever fala com comutação de código inglês-mandarim, identificando problemas como omissão de idioma e tradução. A aplicação da Otimização de Preferência Direta (DPO) alinha os modelos para preservar o conteúdo de idiomas mistos, resultando em reduções significativas da Taxa de Erro Mista (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization Speech Recognition

Ler original ↗