RESEARCH27

Adaptive Computation Depth via Learned Token Routing in Transformers

arXiv CS.LG·8. Mai 2026

Dieses Papier stellt Token-Selective Attention (TSA) vor, einen Mechanismus für Transformer-Architekturen, der eine adaptive Berechnungstiefe pro Token ermöglicht. TSA lernt, Tokens basierend auf kontextueller Schwierigkeit zu leiten und spart 14-23 % der Token-Layer-Operationen bei minimalem Qualitätsverlust.

neural networks deep learning machine learning efficiency Transformers

Original lesen ↗