heapsort
RESEARCH28

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

arXiv CS.LG·18. Mai 2026

Dieses Papier stellt die On-Policy-Selbst-Destillation (OPSA) vor, um die „Sicherheitssteuer“ bei der LLM-Sicherheitsausrichtung zu reduzieren. OPSA behebt die Verteilungsfehlanpassung des Off-Policy-Trainings, indem das Modell seine eigenen Rollouts generiert und dichte KL-Überwachung erhält.

Original lesen