DPO

3 items

ARTICLEHugging Face Blog·il y a 6j

Direct Preference Optimization Beyond Chatbots

Cet article explore l'optimisation des préférences directes (DPO), une méthode permettant d'aligner les modèles d'IA sur les préférences humaines, en examinant ses applications potentielles au-delà des chatbots traditionnels. Il examine comment le DPO peut être utilisé dans divers domaines de l'IA.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.AI·04/05/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO est une nouvelle variante de l'Optimisation par Préférence Directe (DPO) sensible à la topologie et à l'incertitude, visant à mieux aligner les grands modèles de langage (LLMs) avec les préférences humaines. Cette méthode récompense la manière dont les réponses sont dérivées, et pas seulement leur contenu, en intégrant des topologies de raisonnement et des signaux d'incertitude.

reinforcement learning DPO AI alignment machine learning

ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.

model performance DPO AI training Debugging