Direct Preference Optimization

2 items

ARTICLEHugging Face Blog·6d ago

Direct Preference Optimization Beyond Chatbots

This article explores Direct Preference Optimization (DPO), a method for aligning AI models with human preferences, examining its potential applications beyond traditional chatbots. It delves into how DPO can be utilized in various AI domains.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.CL·14d ago

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

This paper investigates failures in Audio LLMs when transcribing English-Mandarin code-switching speech, identifying issues like language omission and translation. Applying Direct Preference Optimization (DPO) aligns models to preserve mixed-language content, leading to significant reductions in Mixed Error Rate (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization