RESEARCH29

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

arXiv CS.LG·13 de mayo de 2026

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

preference optimization deep learning reinforcement learning Hyperparameter Tuning machine learning

Leer original ↗