heapsort
RESEARCH29

Simply Stabilizing the Loop via Fully Looped Transformer

arXiv CS.LG·20 de mayo de 2026

Los Transformers en Bucle ofrecen una forma de mejorar el rendimiento del modelo reutilizando bloques iterativamente sin aumentar el recuento de parámetros, pero sufren de inestabilidad en el entrenamiento con más iteraciones. Esta inestabilidad se atribuye a la oscilación de gradiente y la explosión residual, lo que llevó a la propuesta del Fully Looped Transformer, que introduce una Arquitectura Totalmente en Bucle y la Inyección de Atención.

Leer original