RESEARCH27
Adaptive Computation Depth via Learned Token Routing in Transformers
arXiv CS.LG·8 de mayo de 2026
Este artículo presenta Token-Selective Attention (TSA), un mecanismo para arquitecturas Transformer que permite una profundidad de computación adaptativa por token. TSA aprende a enrutar tokens basándose en la dificultad contextual, ahorrando un 14-23% de las operaciones de capa de token con una pérdida mínima de calidad.
Leer original ↗