distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Experiment: Olmo 3 7B Instruct Q1_0

O autor tentou quantizar o OLMo-3 7B Instruct para um formato de 1-bit usando destilação consciente de quantização, treinando o modelo por 12 horas em 4x B200 GPUs. Embora o modelo resultante possa produzir inglês básico, é geralmente inutilizável devido a repetições e falta de rastreamento de contexto, atribuído à interrupção precoce do treinamento e escolha inadequada do dataset.

OLMo-3 distillation quantization 1-bit model

RESEARCHarXiv CS.CL·14d atrás

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Esta pesquisa apresenta a Destilação Auto-Verificada, um algoritmo que permite a grandes modelos de linguagem (LLMs) aprimorar-se usando apenas prompts não rotulados. O processo envolve a geração, auto-verificação por meio de verificações multi-estágio e o treinamento em conjuntos de dados auto-curados, sem a necessidade de professores externos.

distillation learning self-training AI Research

RESEARCHDEV.to AI·18d atrás

Distilled Agentic Workflow Runs at 100x Lower Inference Cost

Um novo artigo da @dair_ai demonstra que um fluxo de trabalho agêntico completo pode ser destilado em pesos de modelo, resultando em um custo de inferência aproximadamente 100 vezes menor. Este avanço aponta para uma potencial mudança na forma como os agentes de IA autônomos são implantados em escala.

deployment Inference Cost distillation AI agents

RESEARCHDEV.to AI·10/05/2026

Distillation that keeps confidence honest

A destilação on-policy tradicional (OPD) faz com que modelos menores (estudantes) exibam excesso de confiança devido ao acesso do modelo maior (professor) a um contexto privilegiado. Um novo trabalho formaliza este desajuste e propõe o CaOPD para corrigir essa ilusão de certeza sem sacrificar os ganhos de precisão.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.LG·27d atrás

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

O artigo introduz a Distilação On-Policy Multi-Rollout (MOPD), uma estrutura que utiliza o grupo de rollouts locais de um aluno para construir sinais de professor mais informativos na pós-treinamento de LLMs. MOPD considera tanto rollouts bem-sucedidos quanto falhos para fornecer evidências positivas e negativas sobre padrões de raciocínio.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.AI·28d atrás

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

A destilação on-policy (OPD) e a autodestilação on-policy (OPSD) são métodos promissores de pós-treinamento para grandes modelos de linguagem, mas sua eficácia é variável. Esta pesquisa investiga empiricamente seus sucessos e falhas, identificando sensibilidades na escolha do professor e problemas com informações privilegiadas.

LLMs distillation learning machine learning