RESEARCH27
Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
arXiv CS.LG·27 avril 2026
Cette recherche étudie la nécessité des jetons de mémoire appris comme bloc-notes computationnel pour les Universal Transformers avec Temps de Calcul Adaptatif (ACT) sur un benchmark de raisonnement combinatoire. Elle conclut que les jetons de mémoire sont empiriquement nécessaires pour une performance non triviale, identifiant un seuil inférieur net pour le nombre optimal et un piège courant d'initialisation de routeur.
Lire l'original ↗