← heapsort-ai

Preference Optimization

1 items

RESEARCHarXiv CS.LG·28d atrás

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artigo propõe -DPO, uma otimização de preferência direta via margem de recompensa de razão, para resolver o desafio do ajuste de hiperparâmetros no SimPO. A pesquisa analisa SimPO e reformula o objetivo de preferência para melhorar a interpretabilidade em conjuntos de dados com diferentes estruturas de lacuna de recompensa.

29