RESEARCH27

Adaptive Computation Depth via Learned Token Routing in Transformers

arXiv CS.LG·8 de maio de 2026

Este artigo apresenta Token-Selective Attention (TSA), um mecanismo para transformar a arquitetura que permite profundidade de computação adaptativa por token. O TSA aprende a rotear tokens com base na dificuldade contextual, economizando 14-23% das operações de camada de token com perda mínima de qualidade.

neural networks deep learning machine learning efficiency Transformers

Ler original ↗