RESEARCH29
Simply Stabilizing the Loop via Fully Looped Transformer
arXiv CS.LG·20 de maio de 2026
Transformers em Loop oferecem uma alternativa para melhorar o desempenho do modelo reutilizando blocos iterativamente sem aumentar o número de parâmetros, mas sofrem de instabilidade no treinamento com mais iterações. Essa instabilidade é causada por oscilação de gradiente e explosão residual, o que levou à proposta do Fully Looped Transformer, que introduz uma Arquitetura Totalmente em Loop e Injeção de Atenção.
Ler original ↗