Preference Optimization — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·28d atrás

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artigo propõe -DPO, uma otimização de preferência direta via margem de recompensa de razão, para resolver o desafio do ajuste de hiperparâmetros no SimPO. A pesquisa analisa SimPO e reformula o objetivo de preferência para melhorar a interpretabilidade em conjuntos de dados com diferentes estruturas de lacuna de recompensa.

Preference Optimization deep learning reinforcement learning Hyperparameter Tuning