← heapsort-ai

Preference Optimization

1 items

RESEARCHarXiv CS.LG·hace 27d

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

29
Preference Optimization — artículos, noticias e investigación de IA | heapsort-ai