heapsort
RESEARCH27

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

arXiv CS.AI·17 avril 2026

Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.

Lire l'original