heapsort
RESEARCH27

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

arXiv CS.LG·16 avril 2026

Cette recherche examine le phénomène de 'grokking' dans les transformateurs, constatant que le long délai de généralisation dans les modèles arithmétiques résulte d'un goulot d'étranglement du décodeur. L'encodeur acquiert rapidement des connaissances structurelles pertinentes, mais le décodeur peine à y accéder, une hypothèse étayée par des interventions causales telles que la transplantation d'encodeurs.

Lire l'original