RESEARCH28
Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation
arXiv CS.LG·18 de maio de 2026
Este artigo propõe a auto-destilação on-policy (OPSA) para reduzir o "imposto de segurança" na otimização de segurança de LLMs. A OPSA visa resolver o problema de incompatibilidade de distribuição do treinamento off-policy, onde o modelo gera suas próprias trajetórias e recebe supervisão densa.
Ler original ↗