heapsort
RESEARCH29

Simply Stabilizing the Loop via Fully Looped Transformer

arXiv CS.LG·20 mai 2026

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

Lire l'original