RESEARCH46
Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
arXiv CS.LG·27 de abril de 2026
Este estudo investiga a necessidade de tokens de memória aprendidos como bloco de rascunho computacional para Universal Transformers com Adaptive Computation Time (ACT) em um benchmark de raciocínio combinatório. Ele conclui que os tokens de memória são empiricamente necessários para um desempenho não trivial e identifica um limite inferior acentuado para a contagem ótima e uma armadilha comum de inicialização do roteador.
neural networksdeep learningmemoryreasoningTransformers
Ler original ↗