grokking

4 items

RESEARCHarXiv CS.LG·4/16/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Diese Forschung untersucht das Phänomen des „Grokking“ in Transformatoren und stellt fest, dass die lange Verzögerung bei der Generalisierung in arithmetischen Modellen auf einen Decoder-Engpass zurückzuführen ist. Der Encoder erwirbt relevantes Strukturwissen frühzeitig, doch der Decoder hat Schwierigkeiten, darauf zuzugreifen, eine Hypothese, die durch kausale Interventionen wie das Transplantieren von Encodern gestützt wird.

grokking machine learning representation learning Transformers

RESEARCHarXiv CS.LG·4/16/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Diese Arbeit identifiziert die normalisierte spektrale Entropie als skalaren Ordnungsparameter für den Grokking-Übergang, bei dem Modelle lange nach dem Auswendiglernen verallgemeinern. Die Forschung zeigt, dass der Entropiekollaps der Generalisierung vorausgeht, und kausale Interventionen bestätigen deren kritische Rolle, was ein prädiktives Modell für den Beginn des Grokking liefert.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·4/24/2026

ILDR: Geometric Early Detection of Grokking

Dieses Papier schlägt das Inter/Intra-class Distance Ratio (ILDR) als neues geometrisches Signal zur Frühdetektion von „Grokking“ in neuronalen Netzen vor. ILDR, berechnet aus den Repräsentationen der vorletzten Schicht, zeigt eine geometrische Reorganisation im Repräsentationsraum an, bevor sich die Validierungsgenauigkeit verbessert, und übertrifft damit bestehende Detektionsmethoden.

neural networks grokking machine learning early-detection

RESEARCHarXiv CS.LG·vor 28T

Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking

Diese empirische Studie untersucht Tian's (2025) Repulsions-Theorem für Merkmale im Grokking von zweischichtigen Netzwerken. Sie beobachtet eine klare Struktur-Mechanismus-Dissoziation, wobei die vorhergesagte Zeichenregel bei ähnlichen Merkmals-Paaren robust gültig ist.

neural networks feature learning grokking deep learning