post-training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·10/04/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.AI·17/04/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabalho apresenta o Group Fine-Tuning (GFT), uma estrutura unificada de pós-treinamento para modelos de linguagem grandes. Ele aborda as limitações intrínsecas do fine-tuning supervisionado (SFT), como a dependência de caminho único e o colapso da entropia, através da aprendizagem de vantagem de grupo e retificação de coeficiente dinâmico.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) é um novo método de pós-treinamento que supera a eficiência de amostras do RL, dispensando professores externos ou demonstrações de alta qualidade. Ele treina um único modelo para atuar como Gerador e Revisor, transformando recompensas binárias esparsas em supervisão densa por meio de autodistilação.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·28d atrás

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Esta pesquisa propõe distinguir entre a elicitação e a criação de capacidades no pós-treinamento de grandes modelos de linguagem. Argumenta que a elicitação repondera comportamentos existentes dentro do suporte acessível de um modelo, enquanto a criação altera esse suporte, desenvolvendo isso através de uma perspectiva de energia livre.

LLMs AI capabilities Machine Learning Theory learning