← heapsort-ai

grokking

4 items

RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.

27
RESEARCHarXiv CS.LG·16/04/2026

Spectral Entropy Collapse as an Empirical Signature of Delayed Generalisation in Grokking

Este artigo propõe a entropia espectral normalizada como um parâmetro escalar para a transição de grokking, um fenômeno de generalização tardia em modelos de IA. A pesquisa demonstra que o colapso da entropia precede a generalização e que intervenções causais confirmam seu papel fundamental, oferecendo um modelo preditivo para o início do grokking.

27
RESEARCHarXiv CS.LG·24/04/2026

ILDR: Geometric Early Detection of Grokking

Este artigo propõe o ILDR (Inter/Intra-class Distance Ratio) como um novo sinal geométrico para a detecção precoce de 'grokking' em redes neurais. O ILDR, calculado a partir de representações da penúltima camada, indica uma reorganização geométrica no espaço de representação antes que a precisão de validação melhore, superando os métodos de detecção existentes.

27