RESEARCH27

Adaptive Computation Depth via Learned Token Routing in Transformers

arXiv CS.LG·8 de mayo de 2026

Este artículo presenta Token-Selective Attention (TSA), un mecanismo para arquitecturas Transformer que permite una profundidad de computación adaptativa por token. TSA aprende a enrutar tokens basándose en la dificultad contextual, ahorrando un 14-23% de las operaciones de capa de token con una pérdida mínima de calidad.

neural networks deep learning machine learning efficiency Transformers

Leer original ↗