RESEARCHarXiv CS.LG·hace 27d
$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin
Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.
29