Adaptive Computation Depth via Learned Token Routing in Transformers
Cet article introduit Token-Selective Attention (TSA), un mécanisme pour les architectures Transformer qui permet une profondeur de calcul adaptative par jeton. Le TSA apprend à acheminer les jetons en fonction de la difficulté contextuelle, économisant 14 à 23 % des opérations de couche de jetons avec une perte de qualité minimale.