post-training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/10/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·vor 29T

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Diese Forschung schlägt vor, zwischen der Evozierung von Fähigkeiten und der Schaffung von Fähigkeiten im Post-Training großer Sprachmodelle zu unterscheiden. Sie argumentiert, dass die Evozierung bestehende Verhaltensweisen innerhalb der zugänglichen Unterstützung eines Modells neu gewichtet, während die Schaffung diese Unterstützung selbst verändert, und entwickelt dies durch eine Freie-Energie-Perspektive.

LLMs AI capabilities Machine Learning Theory learning