RESEARCH27
Adaptive Computation Depth via Learned Token Routing in Transformers
arXiv CS.LG·8 de maio de 2026
Este artigo apresenta Token-Selective Attention (TSA), um mecanismo para transformar a arquitetura que permite profundidade de computação adaptativa por token. O TSA aprende a rotear tokens com base na dificuldade contextual, economizando 14-23% das operações de camada de token com perda mínima de qualidade.
Ler original ↗