RESEARCH28

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

arXiv CS.LG·18 mai 2026

Cet article présente l'auto-distillation on-policy (OPSA) pour réduire la "taxe de sécurité" dans l'alignement de sécurité des LLM. L'OPSA s'attaque au problème de déséquilibre de distribution de l'entraînement off-policy en faisant générer au modèle ses propres trajectoires et en recevant une supervision KL dense.

LLMs machine learning alignment AI safety

Lire l'original ↗