Direct Preference Optimization

2 items

ARTICLEHugging Face Blog·hace 6d

Direct Preference Optimization Beyond Chatbots

Este artículo explora la Optimización de Preferencia Directa (DPO), un método para alinear modelos de IA con preferencias humanas, examinando sus aplicaciones potenciales más allá de los chatbots tradicionales. Profundiza en cómo se puede utilizar DPO en varios dominios de IA.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.CL·hace 14d

Direct Preference Optimization for English-Mandarin Code-Switching Speech Recognition in Audio LLMs

Este artículo investiga fallas en los LLM de Audio al transcribir el habla con cambio de código inglés-mandarín, identificando problemas como la omisión de idioma y la traducción. La aplicación de la Optimización de Preferencia Directa (DPO) alinea los modelos para preservar el contenido en idiomas mixtos, lo que lleva a reducciones significativas en la Tasa de Error Mixta (MER).

Multilingual AI Audio LLMs Code-Switching Direct Preference Optimization