post-training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.AI·17/04/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Ce travail présente le Group Fine-Tuning (GFT), un cadre unifié de post-entraînement pour les grands modèles de langage. Il aborde les limites intrinsèques du fine-tuning supervisé (SFT), telles que la dépendance à un chemin unique et l'effondrement de l'entropie, par l'apprentissage des avantages de groupe et la rectification dynamique des coefficients.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·il y a 28j

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Cette recherche propose de distinguer l'élicitation de capacités de la création de capacités dans le post-entraînement des grands modèles linguistiques. Elle soutient que l'élicitation repondère les comportements existants au sein du support accessible d'un modèle, tandis que la création modifie ce support, développant cette idée à travers une perspective d'énergie libre.

LLMs AI capabilities Machine Learning Theory learning