RESEARCH38
The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment
arXiv CS.CL·8 de junho de 2026
A "Hipótese Piggyback" explica como tokens de modelo de chat podem induzir desalinhamento emergente em LLMs, generalizando comportamentos finetuned para consultas fora do domínio. A técnica Token-Regularized Finetuning (TReFT) é proposta para mitigar este problema, preservando o aprendizado no domínio e reduzindo o desalinhamento.
Ler original ↗