← heapsort-ai

Self-Distillation

4 items

RESEARCHarXiv CS.LG·6d atrás

Self-Distilled Policy Gradient

Este artigo apresenta o Self-Distilled Policy Gradient (SDPG), uma estrutura inovadora que aprimora o aprendizado por reforço com recompensa esparsa através da autodestilação on-policy. O SDPG combina vantagens do verificador, autodestilação exata de vocabulário completo e regularização KL, mostrando melhorias na estabilidade e desempenho em relação às abordagens existentes.

28
RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) é um novo método de pós-treinamento que supera a eficiência de amostras do RL, dispensando professores externos ou demonstrações de alta qualidade. Ele treina um único modelo para atuar como Gerador e Revisor, transformando recompensas binárias esparsas em supervisão densa por meio de autodistilação.

27
RESEARCHarXiv CS.CL·15d atrás

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill é uma estrutura de autodisdistilação alinhada que torna os Modelos de Linguagem Grandes de Áudio (ALLMs) mais robustos ao ruído. Ele utiliza um professor de áudio limpo para orientar um aluno de áudio ruidoso, otimizando as respostas através de otimização de política relativa a grupos e consistência em nível de token.

27