← heapsort-ai

distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Experiment: Olmo 3 7B Instruct Q1_0

L'auteur a tenté de quantifier OLMo-3 7B Instruct en un format 1-bit en utilisant la distillation consciente de la quantification, entraînant le modèle pendant 12 heures sur 4x B200 GPUs. Bien que le modèle résultant puisse produire de l'anglais basique, il est généralement inutilisable en raison de boucles de répétition et d'un manque de suivi de contexte, attribué à l'arrêt prématuré de l'entraînement et à un choix de jeu de données inadapté.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCHarXiv CS.CL·il y a 13j

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Cette recherche introduit la Distillation Auto-Vérifiée, un algorithme permettant aux grands modèles de langage (LLM) de s'améliorer en utilisant uniquement des invites non étiquetées. Le processus implique la génération, l'auto-vérification par des contrôles multi-étapes, puis l'entraînement sur des ensembles de données auto-curés, sans enseignants externes.

29
RESEARCHarXiv CS.LG·il y a 26j

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

L'article introduit la Distillation On-Policy Multi-Rollout (MOPD), un cadre qui utilise le groupe de déploiements locaux d'un étudiant pour construire des signaux d'enseignant plus informatifs pour le post-apprentissage des LLM. La MOPD conditionne l'enseignant sur les déploiements réussis et échoués, exploitant les réussites pour les schémas de raisonnement valides et les échecs pour éviter les erreurs plausibles.

27