Direct Preference Optimization

2 items

ARTICLEHugging Face Blog·il y a 6j

Direct Preference Optimization Beyond Chatbots

Cet article explore l'optimisation des préférences directes (DPO), une méthode permettant d'aligner les modèles d'IA sur les préférences humaines, en examinant ses applications potentielles au-delà des chatbots traditionnels. Il examine comment le DPO peut être utilisé dans divers domaines de l'IA.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.CL·il y a 14j

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Cet article étudie les défaillances des LLM audio lors de la transcription de la parole à commutation de code anglais-mandarin, identifiant des problèmes comme l'omission de langue et la traduction. L'application de l'Optimisation par Préférence Directe (DPO) aligne les modèles pour préserver le contenu multilingue, entraînant des réductions significatives du Taux d'Erreur Mixte (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization