← heapsort-ai

distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/13/2026

Experiment: Olmo 3 7B Instruct Q1_0

Der Autor versuchte, OLMo-3 7B Instruct mittels quantisierungsbewusster Destillation in ein 1-Bit-Format zu quantisieren, indem er das Modell 12 Stunden lang auf 4x B200 GPUs trainierte. Obwohl das resultierende Modell rudimentäres Englisch erzeugen kann, ist es aufgrund von Wiederholungsschleifen und mangelnder Kontextverfolgung – zurückzuführen auf einen vorzeitigen Trainingsabbruch und eine ungeeignete Datensatzwahl – generell unbrauchbar.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCHarXiv CS.CL·vor 13T

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Diese Forschung stellt die Selbst-Verifizierte Destillation vor, einen Algorithmus, der großen Sprachmodellen (LLMs) ermöglicht, sich nur mit unbeschrifteten Prompts selbst zu verbessern. Dies beinhaltet das Generieren, Selbst-Verifizieren durch mehrstufige Prüfungen und das Trainieren auf selbstkuratierten Datensätzen, ohne externe Lehrer.

29
RESEARCHarXiv CS.LG·vor 26T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

27
RESEARCHarXiv CS.AI·vor 27T

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

27