RESEARCH27
Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
arXiv CS.LG·29 de maio de 2026
Este artigo investiga as origens mecanicistas do esquecimento catastrófico em Grandes Modelos de Linguagem (LLMs), comparando o Aprendizado por Reforço (RL) com o Ajuste Fino Supervisionado (SFT). Ele revela que o RL preserva circuitos computacionais internos de forma mais eficaz, mitigando o esquecimento de capacidades anteriores, ao contrário do SFT que causa maior interrupção nos circuitos.
Ler original ↗