← heapsort-ai

Preference Optimization

1 items

RESEARCHarXiv CS.LG·vor 27T

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

29