WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers
Der Artikel stellt WAV v1 vor, eine leichte Multi-Resolution-Residual-Routing-Methode für Decoder-Only-Transformatoren. Sie verbessert Standard-Residual-Verbindungen, indem sie jeden Block mit direktionalen Detailbasen erweitert, die Aufmerksamkeits- und MLP-Updates sowie frühe und späte Sublayer-Dynamiken kontrastieren.



