← heapsort-ai

Self-Distillation

4 items

RESEARCHarXiv CS.LG·il y a 5j

Self-Distilled Policy Gradient

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

28
RESEARCHarXiv CS.CL·15/04/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Self-Distillation Zero (SD-Zero) est une nouvelle méthode de post-entraînement plus efficace en termes d'échantillons que l'apprentissage par renforcement, sans nécessiter d'enseignants externes ou de démonstrations de haute qualité. Elle entraîne un modèle unique à jouer les rôles de Générateur et de Réviseur, transformant les récompenses binaires éparses en une supervision dense via l'autodistillation.

27
RESEARCHarXiv CS.CL·il y a 14j

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill est un cadre d'autodistillation basé sur l'alignement, conçu pour rendre les Grands Modèles de Langage Audio (ALLMs) robustes au bruit du monde réel. Il utilise un enseignant audio propre pour guider un élève audio bruyant lors de l'inférence, optimisant les réponses via l'optimisation de la politique relative au groupe et la cohérence au niveau du jeton.

27