Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
Dieser Artikel untersucht die mechanistischen Ursprünge des katastrophalen Vergessens in großen Sprachmodellen (LLMs) durch den Vergleich von Reinforcement Learning (RL) mit Supervised Fine-Tuning (SFT). Er zeigt, dass RL interne Rechenschaltkreise effektiver erhält und das Vergessen früherer Fähigkeiten im Gegensatz zu SFT, das größere Schaltkreisstörungen verursacht, mildert.