RESEARCHarXiv CS.LG·15/04/2026
Subcritical Signal Propagation at Initialization in Normalization-Free Transformers
Cet article étudie la propagation du signal à l'initialisation des transformateurs en utilisant la norme jacobienne partielle moyennée (APJN) pour mesurer l'amplification du gradient. La théorie prédit comment l'attention modifie le comportement asymptotique de l'APJN à grande profondeur et explique la sous-criticité des architectures sans normalisation comme les transformateurs Dynamic Tanh et Dynamic erf.
29