RESEARCH28

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

arXiv CS.LG·18 de maio de 2026

Este artigo propõe a auto-destilação on-policy (OPSA) para reduzir o "imposto de segurança" na otimização de segurança de LLMs. A OPSA visa resolver o problema de incompatibilidade de distribuição do treinamento off-policy, onde o modelo gera suas próprias trajetórias e recebe supervisão densa.

LLMs machine learning alignment AI safety

Ler original ↗