← heapsort-ai

grokking

4 items

RESEARCHarXiv CS.LG·16/4/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta investigación estudia el fenómeno del 'grokking' en transformadores, hallando que el largo retraso en la generalización en modelos aritméticos proviene de un cuello de botella en el decodificador. El codificador adquiere conocimiento estructural relevante tempranamente, pero el decodificador lucha por acceder a él, una hipótesis respaldada por intervenciones causales como el trasplante de codificadores.

27
RESEARCHarXiv CS.LG·16/4/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artículo identifica la entropía espectral normalizada como un parámetro escalar para la transición de grokking, donde los modelos generalizan mucho después de la memorización. La investigación demuestra que el colapso de la entropía precede a la generalización y que las intervenciones causales confirman su papel crítico, proporcionando un modelo predictivo para el inicio del grokking.

27
RESEARCHarXiv CS.LG·24/4/2026

ILDR: Geometric Early Detection of Grokking

Este artículo propone el Ratio de Distancia Inter/Intra-clase (ILDR) como una nueva señal geométrica para la detección temprana del 'grokking' en redes neuronales. El ILDR, calculado a partir de representaciones de la penúltima capa, indica una reorganización geométrica en el espacio de representación antes de que mejore la precisión de validación, superando a los métodos de detección existentes.

27