RESEARCH27

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

arXiv CS.AI·4 de maio de 2026

TUR-DPO é uma nova variante de Otimização de Preferência Direta (DPO) que melhora o alinhamento de modelos de linguagem grandes (LLMs) com preferências humanas. Ele incorpora topologias de raciocínio e sinais de incerteza, premiando como as respostas são derivadas e não apenas o que elas dizem.

reinforcement learning DPO AI alignment machine learning LLM

Ler original ↗