heapsort
RESEARCH27

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

arXiv CS.LG·16 de abril de 2026

Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.

Ler original