Adaptive Computation Depth via Learned Token Routing in Transformers
Dieses Papier stellt Token-Selective Attention (TSA) vor, einen Mechanismus für Transformer-Architekturen, der eine adaptive Berechnungstiefe pro Token ermöglicht. TSA lernt, Tokens basierend auf kontextueller Schwierigkeit zu leiten und spart 14-23 % der Token-Layer-Operationen bei minimalem Qualitätsverlust.