RESEARCH29
Simply Stabilizing the Loop via Fully Looped Transformer
arXiv CS.LG·20 mai 2026
Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.
Lire l'original ↗