RESEARCH27

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

arXiv CS.AI·17 de abril de 2026

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

LLMs reinforcement learning post-training machine learning Fine-tuning

Leer original ↗