RESEARCHarXiv CS.CL·hace 1d
The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment
La Hipótesis Piggyback explica cómo los tokens de plantilla de chat pueden causar desalineación emergente en LLMs, generalizando el comportamiento ajustado a consultas fuera del dominio. Se propone la técnica Token-Regularized Finetuning (TReFT) para mitigar este problema, preservando el aprendizaje en el dominio y reduciendo la desalineación.
41