RESEARCH29
$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin
arXiv CS.LG·13 mai 2026
Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.
Lire l'original ↗