heapsort
RESEARCH29

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

arXiv CS.LG·15 avril 2026

Cet article étudie la propagation du signal à l'initialisation des transformateurs en utilisant la norme jacobienne partielle moyennée (APJN) pour mesurer l'amplification du gradient. La théorie prédit comment l'attention modifie le comportement asymptotique de l'APJN à grande profondeur et explique la sous-criticité des architectures sans normalisation comme les transformateurs Dynamic Tanh et Dynamic erf.

Lire l'original