RESEARCHarXiv CS.LG·15/4/2026
Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
Este artículo estudia la propagación de la señal en la inicialización de transformers utilizando la norma jacobiana parcial promedio (APJN) para medir la amplificación del gradiente. La teoría predice cómo la atención modifica el comportamiento asintótico de la APJN a gran profundidad y explica la subcriticidad de arquitecturas sin normalización como los transformers Dynamic Tanh y Dynamic erf.
29