RESEARCH27
The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior
arXiv CS.LG·16 de abril de 2026
Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.
Ler original ↗