RESEARCH41
The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment
arXiv CS.CL·8 de junio de 2026
La Hipótesis Piggyback explica cómo los tokens de plantilla de chat pueden causar desalineación emergente en LLMs, generalizando el comportamiento ajustado a consultas fuera del dominio. Se propone la técnica Token-Regularized Finetuning (TReFT) para mitigar este problema, preservando el aprendizaje en el dominio y reduciendo la desalineación.
Leer original ↗