← heapsort-ai

DPO

3 items

RESEARCHarXiv CS.AI·04/05/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO est une nouvelle variante de l'Optimisation par Préférence Directe (DPO) sensible à la topologie et à l'incertitude, visant à mieux aligner les grands modèles de langage (LLMs) avec les préférences humaines. Cette méthode récompense la manière dont les réponses sont dérivées, et pas seulement leur contenu, en intégrant des topologies de raisonnement et des signaux d'incertitude.

27
ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.

27