Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
Cet article examine les origines mécanistes de l'oubli catastrophique dans les grands modèles linguistiques (LLM), comparant l'apprentissage par renforcement (RL) à l'ajustement fin supervisé (SFT). Il révèle que le RL préserve plus efficacement les circuits computationnels internes, atténuant l'oubli des capacités antérieures, contrairement au SFT qui provoque une plus grande perturbation des circuits.