RESEARCH27
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
arXiv CS.AI·4 mai 2026
TUR-DPO est une nouvelle variante de l'Optimisation par Préférence Directe (DPO) sensible à la topologie et à l'incertitude, visant à mieux aligner les grands modèles de langage (LLMs) avec les préférences humaines. Cette méthode récompense la manière dont les réponses sont dérivées, et pas seulement leur contenu, en intégrant des topologies de raisonnement et des signaux d'incertitude.
Lire l'original ↗