RESEARCH27

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

arXiv CS.AI·4 mai 2026

TUR-DPO est une nouvelle variante de l'Optimisation par Préférence Directe (DPO) sensible à la topologie et à l'incertitude, visant à mieux aligner les grands modèles de langage (LLMs) avec les préférences humaines. Cette méthode récompense la manière dont les réponses sont dérivées, et pas seulement leur contenu, en intégrant des topologies de raisonnement et des signaux d'incertitude.

reinforcement learning DPO AI alignment machine learning LLM

Lire l'original ↗