← heapsort-ai

post-training

4 items

RESEARCHarXiv CS.AI·17/04/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.

27
RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

27
RESEARCHarXiv CS.AI·il y a 28j

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Cette recherche propose de distinguer l'élicitation de capacités de la création de capacités dans le post-entraînement des grands modèles linguistiques. Elle soutient que l'élicitation repondère les comportements existants au sein du support accessible d'un modèle, tandis que la création modifie ce support, développant cette idée à travers une perspective d'énergie libre.

27