← heapsort-ai

Self-Distillation

4 items

RESEARCHarXiv CS.LG·hace 5d

Self-Distilled Policy Gradient

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

28
RESEARCHarXiv CS.CL·15/4/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) es un nuevo método de post-entrenamiento que es más eficiente en muestras que el aprendizaje por refuerzo tradicional, sin necesidad de profesores externos o demostraciones de alta calidad. Funciona entrenando un único modelo para ser tanto Generador como Revisor, convirtiendo las recompensas binarias dispersas en supervisión densa a través de la autodestilación.

27
RESEARCHarXiv CS.CL·hace 14d

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill es un marco de autodestilación basado en alineación diseñado para hacer que los Modelos de Lenguaje Grandes de Audio (ALLMs) sean robustos al ruido del mundo real. Utiliza un profesor de audio limpio para guiar a un estudiante de audio ruidoso en tiempo de inferencia, optimizando las respuestas mediante la optimización de políticas relativas a grupos y la consistencia a nivel de token.

27