heapsort
RESEARCH41

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

arXiv CS.CL·8 juin 2026

L'hypothèse du Piggyback explique comment les tokens de modèle de chat peuvent induire un désalignement émergent dans les LLMs, généralisant les comportements affinés à des requêtes hors domaine. La technique de finetuning régularisé par token (TReFT) est proposée pour atténuer ce problème, préservant l'apprentissage intra-domaine et réduisant le désalignement.

Lire l'original