RESEARCH27
The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior
arXiv CS.LG·16 de abril de 2026
Esta investigación estudia el fenómeno del 'grokking' en transformadores, hallando que el largo retraso en la generalización en modelos aritméticos proviene de un cuello de botella en el decodificador. El codificador adquiere conocimiento estructural relevante tempranamente, pero el decodificador lucha por acceder a él, una hipótesis respaldada por intervenciones causales como el trasplante de codificadores.
Leer original ↗