RESEARCH27

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

arXiv CS.LG·29 de maio de 2026

Este artigo investiga as origens mecanicistas do esquecimento catastrófico em Grandes Modelos de Linguagem (LLMs), comparando o Aprendizado por Reforço (RL) com o Ajuste Fino Supervisionado (SFT). Ele revela que o RL preserva circuitos computacionais internos de forma mais eficaz, mitigando o esquecimento de capacidades anteriores, ao contrário do SFT que causa maior interrupção nos circuitos.

LLMs deep learning machine learning Catastrophic Forgetting AI

Ler original ↗