RESEARCH27
Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
arXiv CS.LG·29. Mai 2026
Dieser Artikel untersucht die mechanistischen Ursprünge des katastrophalen Vergessens in großen Sprachmodellen (LLMs) durch den Vergleich von Reinforcement Learning (RL) mit Supervised Fine-Tuning (SFT). Er zeigt, dass RL interne Rechenschaltkreise effektiver erhält und das Vergessen früherer Fähigkeiten im Gegensatz zu SFT, das größere Schaltkreisstörungen verursacht, mildert.
Original lesen ↗