← heapsort-ai

Emergent Misalignment

1 items

RESEARCHarXiv CS.CL·2d atrás

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

A "Hipótese Piggyback" explica como tokens de modelo de chat podem induzir desalinhamento emergente em LLMs, generalizando comportamentos finetuned para consultas fora do domínio. A técnica Token-Regularized Finetuning (TReFT) é proposta para mitigar este problema, preservando o aprendizado no domínio e reduzindo o desalinhamento.

38