WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers
L'article présente WAV v1, une méthode légère de routage résiduel multi-résolution pour les Transformers de type décodeur uniquement. Il améliore les connexions résiduelles standard en augmentant chaque bloc avec des bases de détails directionnelles qui contrastent les mises à jour attention et MLP, et les dynamiques des sous-couches précoces et tardives.



