heapsort
RESEARCH27

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

arXiv CS.LG·27 de abril de 2026

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

Leer original