← heapsort-ai

grokking

4 items

RESEARCHarXiv CS.LG·4/16/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Diese Forschung untersucht das Phänomen des „Grokking“ in Transformatoren und stellt fest, dass die lange Verzögerung bei der Generalisierung in arithmetischen Modellen auf einen Decoder-Engpass zurückzuführen ist. Der Encoder erwirbt relevantes Strukturwissen frühzeitig, doch der Decoder hat Schwierigkeiten, darauf zuzugreifen, eine Hypothese, die durch kausale Interventionen wie das Transplantieren von Encodern gestützt wird.

27
RESEARCHarXiv CS.LG·4/16/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Diese Arbeit identifiziert die normalisierte spektrale Entropie als skalaren Ordnungsparameter für den Grokking-Übergang, bei dem Modelle lange nach dem Auswendiglernen verallgemeinern. Die Forschung zeigt, dass der Entropiekollaps der Generalisierung vorausgeht, und kausale Interventionen bestätigen deren kritische Rolle, was ein prädiktives Modell für den Beginn des Grokking liefert.

27
RESEARCHarXiv CS.LG·4/24/2026

ILDR: Geometric Early Detection of Grokking

Dieses Papier schlägt das Inter/Intra-class Distance Ratio (ILDR) als neues geometrisches Signal zur Frühdetektion von „Grokking“ in neuronalen Netzen vor. ILDR, berechnet aus den Repräsentationen der vorletzten Schicht, zeigt eine geometrische Reorganisation im Repräsentationsraum an, bevor sich die Validierungsgenauigkeit verbessert, und übertrifft damit bestehende Detektionsmethoden.

27