← heapsort-ai

Audio LLMs

2 items

RESEARCHarXiv CS.CL·hace 14d

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill es un marco de autodestilación basado en alineación diseñado para hacer que los Modelos de Lenguaje Grandes de Audio (ALLMs) sean robustos al ruido del mundo real. Utiliza un profesor de audio limpio para guiar a un estudiante de audio ruidoso en tiempo de inferencia, optimizando las respuestas mediante la optimización de políticas relativas a grupos y la consistencia a nivel de token.

27
RESEARCHarXiv CS.CL·hace 14d

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).

27