← heapsort-ai

Audio LLMs

2 items

RESEARCHarXiv CS.CL·il y a 15j

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill est un cadre d'autodistillation basé sur l'alignement, conçu pour rendre les Grands Modèles de Langage Audio (ALLMs) robustes au bruit du monde réel. Il utilise un enseignant audio propre pour guider un élève audio bruyant lors de l'inférence, optimisant les réponses via l'optimisation de la politique relative au groupe et la cohérence au niveau du jeton.

27
RESEARCHarXiv CS.CL·il y a 15j

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Cet article étudie les défaillances des LLM audio lors de la transcription de la parole à commutation de code anglais-mandarin, identifiant des problèmes comme l'omission de langue et la traduction. L'application de l'Optimisation par Préférence Directe (DPO) aligne les modèles pour préserver le contenu multilingue, entraînant des réductions significatives du Taux d'Erreur Mixte (MER).

27