Self-Distillation

4 items

RESEARCHarXiv CS.LG·6d atrás

Self-Distilled Policy Gradient

Este artigo apresenta o Self-Distilled Policy Gradient (SDPG), uma estrutura inovadora que aprimora o aprendizado por reforço com recompensa esparsa através da autodestilação on-policy. O SDPG combina vantagens do verificador, autodestilação exata de vocabulário completo e regularização KL, mostrando melhorias na estabilidade e desempenho em relação às abordagens existentes.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) é um novo método de pós-treinamento que supera a eficiência de amostras do RL, dispensando professores externos ou demonstrações de alta qualidade. Ele treina um único modelo para atuar como Gerador e Revisor, transformando recompensas binárias esparsas em supervisão densa por meio de autodistilação.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.CL·15d atrás

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill é uma estrutura de autodisdistilação alinhada que torna os Modelos de Linguagem Grandes de Áudio (ALLMs) mais robustos ao ruído. Ele utiliza um professor de áudio limpo para orientar um aluno de áudio ruidoso, otimizando as respostas através de otimização de política relativa a grupos e consistência em nível de token.

robustness Audio LLMs machine learning Self-Distillation

RESEARCHHugging Face (YouTube)·16/04/2026

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

Este artigo explora um método simples de auto-destilação que melhora significativamente a geração de código. A discussão faz parte do Hugging Face Journal Club, destacando avanços em modelos de linguagem para programação.

machine learning code generation Self-Distillation large language models

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation