RESEARCHarXiv CS.LG·28d atrás
$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin
Este artigo propõe -DPO, uma otimização de preferência direta via margem de recompensa de razão, para resolver o desafio do ajuste de hiperparâmetros no SimPO. A pesquisa analisa SimPO e reformula o objetivo de preferência para melhorar a interpretabilidade em conjuntos de dados com diferentes estruturas de lacuna de recompensa.
29