RESEARCH27
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
arXiv CS.AI·4 de maio de 2026
TUR-DPO é uma nova variante de Otimização de Preferência Direta (DPO) que melhora o alinhamento de modelos de linguagem grandes (LLMs) com preferências humanas. Ele incorpora topologias de raciocínio e sinais de incerteza, premiando como as respostas são derivadas e não apenas o que elas dizem.
Ler original ↗