RESEARCH29
Simply Stabilizing the Loop via Fully Looped Transformer
arXiv CS.LG·20 de mayo de 2026
Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.
Leer original ↗