heapsort
RESEARCH27

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

arXiv CS.LG·27. April 2026

Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.

Original lesen