RESEARCH27

Adaptive Computation Depth via Learned Token Routing in Transformers

arXiv CS.LG·8 mai 2026

Cet article introduit Token-Selective Attention (TSA), un mécanisme pour les architectures Transformer qui permet une profondeur de calcul adaptative par jeton. Le TSA apprend à acheminer les jetons en fonction de la difficulté contextuelle, économisant 14 à 23 % des opérations de couche de jetons avec une perte de qualité minimale.

neural networks deep learning machine learning efficiency Transformers

Lire l'original ↗