← heapsort-ai

distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Experiment: Olmo 3 7B Instruct Q1_0

O autor tentou quantizar o OLMo-3 7B Instruct para um formato de 1-bit usando destilação consciente de quantização, treinando o modelo por 12 horas em 4x B200 GPUs. Embora o modelo resultante possa produzir inglês básico, é geralmente inutilizável devido a repetições e falta de rastreamento de contexto, atribuído à interrupção precoce do treinamento e escolha inadequada do dataset.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCHarXiv CS.CL·14d atrás

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Esta pesquisa apresenta a Destilação Auto-Verificada, um algoritmo que permite a grandes modelos de linguagem (LLMs) aprimorar-se usando apenas prompts não rotulados. O processo envolve a geração, auto-verificação por meio de verificações multi-estágio e o treinamento em conjuntos de dados auto-curados, sem a necessidade de professores externos.

29
RESEARCHarXiv CS.LG·27d atrás

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

O artigo introduz a Distilação On-Policy Multi-Rollout (MOPD), uma estrutura que utiliza o grupo de rollouts locais de um aluno para construir sinais de professor mais informativos na pós-treinamento de LLMs. MOPD considera tanto rollouts bem-sucedidos quanto falhos para fornecer evidências positivas e negativas sobre padrões de raciocínio.

27