RESEARCH29

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

arXiv CS.LG·13. Mai 2026

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

preference optimization deep learning reinforcement learning Hyperparameter Tuning machine learning

Original lesen ↗