RESEARCH38

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

arXiv CS.CL·8 de junho de 2026

A "Hipótese Piggyback" explica como tokens de modelo de chat podem induzir desalinhamento emergente em LLMs, generalizando comportamentos finetuned para consultas fora do domínio. A técnica Token-Regularized Finetuning (TReFT) é proposta para mitigar este problema, preservando o aprendizado no domínio e reduzindo o desalinhamento.

Finetuning Emergent Misalignment LLMs Generalization AI Research

Ler original ↗