RESEARCH27

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

arXiv CS.AI·17 de abril de 2026

Este trabalho apresenta o Group Fine-Tuning (GFT), uma estrutura unificada de pós-treinamento para modelos de linguagem grandes. Ele aborda as limitações intrínsecas do fine-tuning supervisionado (SFT), como a dependência de caminho único e o colapso da entropia, através da aprendizagem de vantagem de grupo e retificação de coeficiente dinâmico.

LLMs reinforcement learning post-training machine learning Fine-tuning

Ler original ↗