RESEARCH27
Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
arXiv CS.LG·27. April 2026
Diese Studie untersucht die Notwendigkeit von gelernten Speicher-Tokens als Berechnungskladde für Universal Transformers mit adaptiver Berechnungszeit (ACT) auf einem kombinatorischen Denk-Benchmark. Sie zeigt, dass Speicher-Tokens empirisch notwendig für eine nicht-triviale Leistung sind und identifiziert eine scharfe untere Schwelle für die optimale Anzahl sowie eine häufige Router-Initialisierungsfalle.
Original lesen ↗