heapsort
RESEARCH27

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

arXiv CS.LG·16 de abril de 2026

Esta investigación estudia el fenómeno del 'grokking' en transformadores, hallando que el largo retraso en la generalización en modelos aritméticos proviene de un cuello de botella en el decodificador. El codificador adquiere conocimiento estructural relevante tempranamente, pero el decodificador lucha por acceder a él, una hipótesis respaldada por intervenciones causales como el trasplante de codificadores.

Leer original