heapsort
RESEARCH29

Simply Stabilizing the Loop via Fully Looped Transformer

arXiv CS.LG·20 de maio de 2026

Transformers em Loop oferecem uma alternativa para melhorar o desempenho do modelo reutilizando blocos iterativamente sem aumentar o número de parâmetros, mas sofrem de instabilidade no treinamento com mais iterações. Essa instabilidade é causada por oscilação de gradiente e explosão residual, o que levou à proposta do Fully Looped Transformer, que introduz uma Arquitetura Totalmente em Loop e Injeção de Atenção.

Ler original