grokking

4 items

RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.

grokking machine learning representation learning Transformers

RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artigo propõe a entropia espectral normalizada como um parâmetro escalar para a transição de grokking, um fenômeno de generalização tardia em modelos de IA. A pesquisa demonstra que o colapso da entropia precede a generalização e que intervenções causais confirmam seu papel fundamental, oferecendo um modelo preditivo para o início do grokking.

neural networks grokking Generalization deep learning

RESEARCHarXiv CS.LG·24/04/2026

ILDR: Geometric Early Detection of Grokking

Este artigo propõe o ILDR (Inter/Intra-class Distance Ratio) como um novo sinal geométrico para a detecção precoce de 'grokking' em redes neurais. O ILDR, calculado a partir de representações da penúltima camada, indica uma reorganização geométrica no espaço de representação antes que a precisão de validação melhore, superando os métodos de detecção existentes.

neural networks grokking machine learning early-detection

RESEARCHarXiv CS.LG·28d atrás

Feature Repulsion and Spectral Lock-in: An Empirical Study of Two-Layer Network Grokking

Este estudo empírico investiga o teorema da repulsão de características em redes de duas camadas durante o grokking, conforme proposto por Tian (2025). Observa-se uma clara dissociação entre a estrutura e o mecanismo, com a regra de sinal prevista se mantendo robusta em pares de características semelhantes.

neural networks feature learning grokking deep learning