← heapsort-ai

Preference Optimization

1 items

RESEARCHarXiv CS.LG·il y a 27j

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

29