← heapsort-ai

Initialization

1 items

RESEARCHarXiv CS.LG·15/04/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Cet article étudie la propagation du signal à l'initialisation des transformateurs en utilisant la norme jacobienne partielle moyennée (APJN) pour mesurer l'amplification du gradient. La théorie prédit comment l'attention modifie le comportement asymptotique de l'APJN à grande profondeur et explique la sous-criticité des architectures sans normalisation comme les transformateurs Dynamic Tanh et Dynamic erf.

29