← heapsort-ai

Self-Distillation

4 items

RESEARCHarXiv CS.LG·vor 5T

Self-Distilled Policy Gradient

Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.

28
RESEARCHarXiv CS.CL·4/15/2026

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

SD-Zero (Self-Distillation Zero) ist eine neuartige Post-Training-Methode, die darauf ausgelegt ist, trainingseffizienter als herkömmliches Reinforcement Learning zu sein, ohne externe Lehrer oder hochwertige Demonstrationen zu benötigen. Dabei agiert ein einziges Modell als Generator und Reviser, wobei die verbesserten Antworten und Token-Verteilungen des Revisers genutzt werden, um dem Generator mittels On-Policy-Selbst-Destillation eine dichte Supervision zu bieten.

27
RESEARCHarXiv CS.CL·vor 14T

EchoDistill:Alignment Noisy-to-Clean Self-Distillation for Robust Audio LLMs

EchoDistill ist ein ausrichtungsbasiertes Selbst-Destillations-Framework, das Audio Large Language Models (ALLMs) robust gegenüber realem Rauschen macht. Es nutzt einen sauberen Audio-Lehrer, um einen lauten Audio-Schüler während der Inferenz anzuleiten und Antworten durch gruppenrelative Richtlinienoptimierung sowie Token-Level-Konsistenz zu optimieren.

27