Direct Preference Optimization

2 items

ARTICLEHugging Face Blog·vor 6T

Direct Preference Optimization Beyond Chatbots

Dieser Artikel untersucht die Direct Preference Optimization (DPO), eine Methode zur Anpassung von KI-Modellen an menschliche Präferenzen, und erforscht ihre potenziellen Anwendungen jenseits traditioneller Chatbots. Er befasst sich damit, wie DPO in verschiedenen KI-Bereichen eingesetzt werden kann.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.CL·vor 14T

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Dieser Artikel untersucht Fehler in Audio-LLMs bei der Transkription von Englisch-Mandarin-Code-Switching-Sprache, wobei Probleme wie Sprachoauslassung und Übersetzung identifiziert werden. Die Anwendung der Direkten Präferenzoptimierung (DPO) richtet Modelle darauf aus, gemischtsprachige Inhalte zu bewahren, was zu signifikanten Reduktionen der Mixed Error Rate (MER) führt.

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization