Self-Distillation

4 items

RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

language models deep learning reinforcement learning Policy Gradient

RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

reinforcement learning post-training Dense Supervision Self-Distillation

RESEARCHarXiv CS.CL·il y a 14j

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill est un cadre d'autodistillation basé sur l'alignement, conçu pour rendre les Grands Modèles de Langage Audio (ALLMs) robustes au bruit du monde réel. Il utilise un enseignant audio propre pour guider un élève audio bruyant lors de l'inférence, optimisant les réponses via l'optimisation de la politique relative au groupe et la cohérence au niveau du jeton.

robustness Audio LLMs machine learning Self-Distillation

RESEARCHHugging Face (YouTube)·16/04/2026

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation

Ce contenu du Hugging Face Journal Club aborde une méthode d'auto-distillation "incroyablement simple" qui améliore significativement la génération de code. Il souligne les avancées dans l'exploitation des grands modèles de langage pour les tâches de programmation.

machine learning code generation Self-Distillation large language models

Hugging Face Journal Club: Embarrassingly Simple Self-Distillation Improves Code Generation