Self-Distillation

4 items

RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.CL·hace 14d

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill es un marco de autodestilación basado en alineación diseñado para hacer que los Modelos de Lenguaje Grandes de Audio (ALLMs) sean robustos al ruido del mundo real. Utiliza un profesor de audio limpio para guiar a un estudiante de audio ruidoso en tiempo de inferencia, optimizando las respuestas mediante la optimización de políticas relativas a grupos y la consistencia a nivel de token.

robustness Audio LLMs machine learning Self-Distillation

RESEARCHHugging Face (YouTube)·16/4/2026

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

Este contenido del Hugging Face Journal Club explora un método de auto-destilación "vergonzosamente simple" que mejora notablemente la generación de código. Destaca avances en el aprovechamiento de modelos de lenguaje grandes para tareas de programación.

machine learning code generation Self-Distillation large language models

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation