distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/13/2026

Experiment: Olmo 3 7B Instruct Q1_0

Der Autor versuchte, OLMo-3 7B Instruct mittels quantisierungsbewusster Destillation in ein 1-Bit-Format zu quantisieren, indem er das Modell 12 Stunden lang auf 4x B200 GPUs trainierte. Obwohl das resultierende Modell rudimentäres Englisch erzeugen kann, ist es aufgrund von Wiederholungsschleifen und mangelnder Kontextverfolgung – zurückzuführen auf einen vorzeitigen Trainingsabbruch und eine ungeeignete Datensatzwahl – generell unbrauchbar.

OLMo-3 distillation quantization 1-bit model

RESEARCHarXiv CS.CL·vor 13T

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Diese Forschung stellt die Selbst-Verifizierte Destillation vor, einen Algorithmus, der großen Sprachmodellen (LLMs) ermöglicht, sich nur mit unbeschrifteten Prompts selbst zu verbessern. Dies beinhaltet das Generieren, Selbst-Verifizieren durch mehrstufige Prüfungen und das Trainieren auf selbstkuratierten Datensätzen, ohne externe Lehrer.

distillation learning self-training AI Research

RESEARCHDEV.to AI·vor 18T

Distilled Agentic Workflow Runs at 100x Lower Inference Cost

Ein neues Papier von @dair_ai zeigt, dass ein vollständiger agentischer Workflow in Modellgewichte destilliert werden kann, wodurch die Inferenzkosten um das 100-fache gesenkt werden. Dieses Ergebnis deutet auf eine mögliche Verschiebung in der Bereitstellung autonomer KI-Agenten im großen Maßstab hin.

deployment Inference Cost distillation AI agents

RESEARCHDEV.to AI·5/10/2026

Distillation that keeps confidence honest

Traditionelle On-Policy-Destillation (OPD) führt dazu, dass kleinere Schülermodelle übermäßiges Vertrauen zeigen, da das größere Lehrermodell Zugang zu privilegiertem Kontext hat. Neue Forschung formalisiert diese Diskrepanz und schlägt CaOPD vor, um diese Gewissheitsillusion ohne Einbußen bei der Genauigkeit zu korrigieren.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.LG·vor 26T

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Der Artikel stellt die Multi-Rollout On-Policy Distillation (MOPD) vor, ein Framework, das die lokalen Rollout-Gruppen eines Schülers nutzt, um informativere Lehrersignale für das Post-Training von LLMs zu konstruieren. MOPD konditioniert den Lehrer sowohl auf erfolgreiche als auch auf fehlgeschlagene Peer-Rollouts, wobei Erfolge positive Evidenz für gültige Denkmuster liefern und Misserfolge strukturierte negative Evidenz für vermeidbare Fehler.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.AI·vor 27T

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

On-Policy-Destillation (OPD) und On-Policy-Selbst-Destillation (OPSD) sind vielversprechende Post-Training-Methoden für große Sprachmodelle, deren Wirksamkeit jedoch gemischt ist. Diese Forschung untersucht empirisch, wann und warum sie funktionieren oder scheitern, und identifiziert Empfindlichkeiten bei der Lehrerwahl und Probleme mit privilegierten Informationen.

LLMs distillation learning machine learning