RESEARCH27
Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
arXiv CS.LG·29 de mayo de 2026
Este artículo investiga los orígenes mecanicistas del olvido catastrófico en Grandes Modelos de Lenguaje (LLMs), comparando el Aprendizaje por Refuerzo (RL) con el Ajuste Fino Supervisado (SFT). Revela que el RL preserva los circuitos computacionales internos de manera más efectiva, mitigando el olvido de capacidades anteriores, a diferencia del SFT que causa mayor interrupción en los circuitos.
Leer original ↗