RESEARCH28

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

arXiv CS.LG·18 de mayo de 2026

Este artículo propone la auto-destilación en-política (OPSA) para reducir el "impuesto de seguridad" en la alineación de seguridad de los LLM. OPSA aborda el desajuste distribucional del entrenamiento fuera de política haciendo que el modelo genere sus propias trayectorias y reciba supervisión KL densa.

LLMs machine learning alignment AI safety

Leer original ↗