RESEARCH29
$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin
arXiv CS.LG·13 de mayo de 2026
Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.
Leer original ↗