← heapsort-ai

Emergent Misalignment

1 items

RESEARCHarXiv CS.CL·hace 1d

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

La Hipótesis Piggyback explica cómo los tokens de plantilla de chat pueden causar desalineación emergente en LLMs, generalizando el comportamiento ajustado a consultas fuera del dominio. Se propone la técnica Token-Regularized Finetuning (TReFT) para mitigar este problema, preservando el aprendizaje en el dominio y reduciendo la desalineación.

41