distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Experiment: Olmo 3 7B Instruct Q1_0

L'auteur a tenté de quantifier OLMo-3 7B Instruct en un format 1-bit en utilisant la distillation consciente de la quantification, entraînant le modèle pendant 12 heures sur 4x B200 GPUs. Bien que le modèle résultant puisse produire de l'anglais basique, il est généralement inutilisable en raison de boucles de répétition et d'un manque de suivi de contexte, attribué à l'arrêt prématuré de l'entraînement et à un choix de jeu de données inadapté.

OLMo-3 distillation quantization 1-bit model

RESEARCHarXiv CS.CL·il y a 13j

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Cette recherche introduit la Distillation Auto-Vérifiée, un algorithme permettant aux grands modèles de langage (LLM) de s'améliorer en utilisant uniquement des invites non étiquetées. Le processus implique la génération, l'auto-vérification par des contrôles multi-étapes, puis l'entraînement sur des ensembles de données auto-curés, sans enseignants externes.

distillation learning self-training AI Research

RESEARCHDEV.to AI·il y a 18j

Distilled Agentic Workflow Runs at 100x Lower Inference Cost

Un nouvel article de @dair_ai démontre qu'un flux de travail agêntique complet peut être distillé en poids de modèle, permettant un coût d'inférence environ 100 fois inférieur. Ce résultat suggère un changement potentiel dans la manière dont les agents IA autonomes sont déployés à grande échelle.

deployment Inference Cost distillation AI agents

RESEARCHDEV.to AI·10/05/2026

Distillation that keeps confidence honest

La distillation en-politique (OPD) traditionnelle conduit les petits modèles étudiants à un excès de confiance, car le modèle enseignant a accès à un contexte privilégié. De nouvelles recherches formalisent ce décalage et proposent le CaOPD pour corriger cette illusion de certitude sans sacrifier les gains de précision.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.LG·il y a 26j

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

L'article introduit la Distillation On-Policy Multi-Rollout (MOPD), un cadre qui utilise le groupe de déploiements locaux d'un étudiant pour construire des signaux d'enseignant plus informatifs pour le post-apprentissage des LLM. La MOPD conditionne l'enseignant sur les déploiements réussis et échoués, exploitant les réussites pour les schémas de raisonnement valides et les échecs pour éviter les erreurs plausibles.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.AI·il y a 27j

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La distillation on-policy (OPD) et l'autodistillation on-policy (OPSD) sont des méthodes post-entraînement prometteuses pour les grands modèles de langage, mais leur efficacité varie. Cette étude examine empiriquement leurs réussites et échecs, identifiant des sensibilités au choix de l'enseignant et des problèmes d'information privilégiée.

LLMs distillation learning machine learning