← heapsort-ai

Audio LLMs

2 items

RESEARCHarXiv CS.CL·15d atrás

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill é uma estrutura de autodisdistilação alinhada que torna os Modelos de Linguagem Grandes de Áudio (ALLMs) mais robustos ao ruído. Ele utiliza um professor de áudio limpo para orientar um aluno de áudio ruidoso, otimizando as respostas através de otimização de política relativa a grupos e consistência em nível de token.

27
RESEARCHarXiv CS.CL·15d atrás

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artigo investiga falhas em LLMs de Áudio ao transcrever fala com comutação de código inglês-mandarim, identificando problemas como omissão de idioma e tradução. A aplicação da Otimização de Preferência Direta (DPO) alinha os modelos para preservar o conteúdo de idiomas mistos, resultando em reduções significativas da Taxa de Erro Mista (MER).

27