RESEARCH29
$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin
arXiv CS.LG·13. Mai 2026
Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.
Original lesen ↗