RESEARCH27
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
arXiv CS.AI·4 de mayo de 2026
TUR-DPO es una nueva variante de Optimización de Preferencia Directa (DPO) sensible a la topología y la incertidumbre, que mejora la alineación de grandes modelos de lenguaje (LLMs) con las preferencias humanas. Recompensa cómo se derivan las respuestas, no solo lo que dicen, incorporando topologías de razonamiento y señales de incerteza.
Leer original ↗