← heapsort-ai

post-training

4 items

RESEARCHarXiv CS.AI·4/17/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Diese Arbeit stellt Group Fine-Tuning (GFT) vor, ein vereinheitlichtes Post-Training-Framework für große Sprachmodelle. Es begegnet intrinsischen Einschränkungen des überwachten Fine-Tunings (SFT), wie der Single-Path-Abhängigkeit und dem Entropiekollaps, mittels Group Advantage Learning und Dynamic Coefficient Rectification.

27
RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

27
RESEARCHarXiv CS.AI·vor 29T

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Diese Forschung schlägt vor, zwischen der Evozierung von Fähigkeiten und der Schaffung von Fähigkeiten im Post-Training großer Sprachmodelle zu unterscheiden. Sie argumentiert, dass die Evozierung bestehende Verhaltensweisen innerhalb der zugänglichen Unterstützung eines Modells neu gewichtet, während die Schaffung diese Unterstützung selbst verändert, und entwickelt dies durch eine Freie-Energie-Perspektive.

27