RESEARCH28
Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation
arXiv CS.LG·18 de mayo de 2026
Este artículo propone la auto-destilación en-política (OPSA) para reducir el "impuesto de seguridad" en la alineación de seguridad de los LLM. OPSA aborda el desajuste distribucional del entrenamiento fuera de política haciendo que el modelo genere sus propias trayectorias y reciba supervisión KL densa.
Leer original ↗