RESEARCH27
GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification
arXiv CS.AI·17 avril 2026
Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.
Lire l'original ↗