RESEARCH27

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

arXiv CS.AI·17. April 2026

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

LLMs reinforcement learning post-training machine learning fine-tuning

Original lesen ↗