RESEARCH27
The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior
arXiv CS.LG·16. April 2026
Diese Forschung untersucht das Phänomen des „Grokking“ in Transformatoren und stellt fest, dass die lange Verzögerung bei der Generalisierung in arithmetischen Modellen auf einen Decoder-Engpass zurückzuführen ist. Der Encoder erwirbt relevantes Strukturwissen frühzeitig, doch der Decoder hat Schwierigkeiten, darauf zuzugreifen, eine Hypothese, die durch kausale Interventionen wie das Transplantieren von Encodern gestützt wird.
Original lesen ↗