← heapsort-ai

Audio LLMs

2 items

RESEARCHarXiv CS.CL·vor 15T

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill ist ein ausrichtungsbasiertes Selbst-Destillations-Framework, das Audio Large Language Models (ALLMs) robust gegenüber realem Rauschen macht. Es nutzt einen sauberen Audio-Lehrer, um einen lauten Audio-Schüler während der Inferenz anzuleiten und Antworten durch gruppenrelative Richtlinienoptimierung sowie Token-Level-Konsistenz zu optimieren.

27
RESEARCHarXiv CS.CL·vor 15T

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Dieser Artikel untersucht Fehler in Audio-LLMs bei der Transkription von Englisch-Mandarin-Code-Switching-Sprache, wobei Probleme wie Sprachoauslassung und Übersetzung identifiziert werden. Die Anwendung der Direkten Präferenzoptimierung (DPO) richtet Modelle darauf aus, gemischtsprachige Inhalte zu bewahren, was zu signifikanten Reduktionen der Mixed Error Rate (MER) führt.

27