RESEARCH27

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

arXiv CS.AI·4 de mayo de 2026

TUR-DPO es una nueva variante de Optimización de Preferencia Directa (DPO) sensible a la topología y la incertidumbre, que mejora la alineación de grandes modelos de lenguaje (LLMs) con las preferencias humanas. Recompensa cómo se derivan las respuestas, no solo lo que dicen, incorporando topologías de razonamiento y señales de incerteza.

reinforcement learning DPO AI alignment machine learning LLM

Leer original ↗