distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·13/4/2026

Experiment: Olmo 3 7B Instruct Q1_0

El autor intentó cuantizar OLMo-3 7B Instruct a un formato de 1-bit mediante destilación consciente de cuantificación, entrenando el modelo durante 12 horas en 4x B200 GPUs. Aunque el modelo resultante puede producir inglés básico, es generalmente inutilizable debido a bucles de repetición y falta de seguimiento de contexto, atribuido a la interrupción temprana del entrenamiento y una elección de conjunto de datos inadecuada.

OLMo-3 distillation quantization 1-bit model

RESEARCHarXiv CS.CL·hace 14d

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Esta investigación presenta la Destilación Auto-Verificada, un algoritmo que permite a los grandes modelos de lenguaje (LLMs) mejorarse a sí mismos utilizando solo indicaciones sin etiquetar. Implica generar, auto-verificar mediante comprobaciones multi-etapa y luego entrenar con conjuntos de datos auto-curados, sin maestros externos.

distillation learning self-training AI Research

RESEARCHDEV.to AI·hace 18d

Distilled Agentic Workflow Runs at 100x Lower Inference Cost

Un nuevo artículo de @dair_ai demuestra que un flujo de trabajo agéntico completo puede destilarse en pesos de modelo, logrando un costo de inferencia aproximadamente 100 veces menor. Este resultado apunta a un cambio potencial en la forma en que los agentes de IA autónomos se implementan a escala.

deployment Inference Cost distillation AI agents

RESEARCHDEV.to AI·10/5/2026

Distillation that keeps confidence honest

La destilación en política (OPD) tradicional provoca que los modelos estudiantes más pequeños muestren un exceso de confianza debido al acceso del modelo maestro a un contexto privilegiado. Un nuevo trabajo formaliza esta discrepancia y propone CaOPD para corregir esta ilusión de certeza sin sacrificar las ganancias de precisión.

Confidence Calibration distillation model training machine learning

RESEARCHarXiv CS.LG·hace 27d

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

distillation reinforcement learning AI training machine learning

RESEARCHarXiv CS.AI·hace 28d

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.

LLMs distillation learning machine learning