← heapsort-ai

post-training

4 items

RESEARCHarXiv CS.AI·17/4/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

27
RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

27
RESEARCHarXiv CS.AI·hace 28d

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Esta investigación propone distinguir entre la elicitación y la creación de capacidades en el post-entrenamiento de grandes modelos de lenguaje. Argumenta que la elicitación repondera comportamientos existentes dentro del soporte accesible de un modelo, mientras que la creación cambia ese soporte, desarrollando esto a través de una perspectiva de energía libre.

27