grokking

4 items

RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Cette recherche examine le phénomène de 'grokking' dans les transformateurs, constatant que le long délai de généralisation dans les modèles arithmétiques résulte d'un goulot d'étranglement du décodeur. L'encodeur acquiert rapidement des connaissances structurelles pertinentes, mais le décodeur peine à y accéder, une hypothèse étayée par des interventions causales telles que la transplantation d'encodeurs.

grokking Machine Learning representation learning Transformers

RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Cet article identifie l'entropie spectrale normalisée comme un paramètre d'ordre scalaire pour la transition de grokking, où les modèles généralisent longtemps après la mémorisation. La recherche montre que l'effondrement de l'entropie précède la généralisation, et des interventions causales confirment son rôle critique, offrant un modèle prédictif pour le début du grokking.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·24/04/2026

ILDR: Geometric Early Detection of Grokking

Cet article propose le Ratio de Distance Inter/Intra-classe (ILDR) comme un nouveau signal géométrique pour la détection précoce du « grokking » dans les réseaux neuronaux. L'ILDR, calculé à partir des représentations de l'avant-dernière couche, indique une réorganisation géométrique dans l'espace de représentation avant que la précision de validation ne s'améliore, surpassant les méthodes de détection existantes.

neural networks grokking Machine Learning early-detection

RESEARCHarXiv CS.LG·il y a 29j

Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking

Cette étude empirique examine le théorème de répulsion des caractéristiques dans le grokking de réseaux à deux couches, tel que prouvé par Tian (2025). Elle révèle une dissociation claire entre structure et mécanisme, avec la règle de signe prévue tenant robustement pour les paires de caractéristiques les plus similaires.

neural networks feature learning grokking deep learning