post-training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

Started a video series on building an orchestration layer for LLM post-training [P]

O autor iniciou uma série de vídeos sobre a construção de uma camada de orquestração para o pós-treinamento de LLMs. Ele descreve seus esforços para melhorar o framework `verl` para treinamento RL em escala, focando na modernização de pacotes e remoção de dependências irrelevantes.

reinforcement learning post-training orchestration frameworks

RESEARCHarXiv CS.AI·17/4/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

LLMs reinforcement learning post-training machine learning

RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.AI·hace 28d

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Esta investigación propone distinguir entre la elicitación y la creación de capacidades en el post-entrenamiento de grandes modelos de lenguaje. Argumenta que la elicitación repondera comportamientos existentes dentro del soporte accesible de un modelo, mientras que la creación cambia ese soporte, desarrollando esto a través de una perspectiva de energía libre.

LLMs AI capabilities Machine Learning Theory learning