RESEARCH29

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

arXiv CS.LG·13 mai 2026

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

preference optimization deep learning reinforcement learning Hyperparameter Tuning machine learning

Lire l'original ↗