heapsort
RESEARCH29

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

arXiv CS.LG·15. April 2026

Diese Arbeit untersucht die Signalausbreitung bei der Initialisierung in Transformatoren mittels der gemittelten partiellen Jacobi-Norm (APJN) zur Messung der Gradientenverstärkung. Die Theorie erweitert die APJN-Analyse, prognostiziert das asymptotische Verhalten der APJN bei großer Tiefe und erklärt die Subkritikalität von normalisierungsfreien Architekturen wie Dynamic Tanh- und Dynamic erf-Transformatoren.

Original lesen