← heapsort-ai

distillation

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·13/4/2026

Experiment: Olmo 3 7B Instruct Q1_0

El autor intentó cuantizar OLMo-3 7B Instruct a un formato de 1-bit mediante destilación consciente de cuantificación, entrenando el modelo durante 12 horas en 4x B200 GPUs. Aunque el modelo resultante puede producir inglés básico, es generalmente inutilizable debido a bucles de repetición y falta de seguimiento de contexto, atribuido a la interrupción temprana del entrenamiento y una elección de conjunto de datos inadecuada.

Experiment: Olmo 3 7B Instruct Q1_0
43
RESEARCHarXiv CS.CL·hace 14d

Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline

Esta investigación presenta la Destilación Auto-Verificada, un algoritmo que permite a los grandes modelos de lenguaje (LLMs) mejorarse a sí mismos utilizando solo indicaciones sin etiquetar. Implica generar, auto-verificar mediante comprobaciones multi-etapa y luego entrenar con conjuntos de datos auto-curados, sin maestros externos.

29
RESEARCHarXiv CS.LG·hace 27d

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

El artículo presenta la Destilación On-Policy Multi-Rollout (MOPD), un marco que utiliza el grupo de despliegues locales de un estudiante para construir señales de profesor más informativas para el post-entrenamiento de LLMs. MOPD condiciona al profesor tanto en despliegues exitosos como fallidos, utilizando los éxitos para patrones de razonamiento válidos y los fallos para evitar errores plausibles.

27
RESEARCHarXiv CS.AI·hace 28d

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.

27