heapsort
RESEARCH29

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

arXiv CS.LG·15 de abril de 2026

Este artigo investiga a propagação de sinal na inicialização de transformers usando a norma jacobiana parcial média (APJN) para medir a amplificação do gradiente. A teoria estende a análise de APJN, prevê o comportamento assintótico da APJN em grande profundidade e explica a subcriticidade de arquiteturas sem normalização como Dynamic Tanh e Dynamic erf transformers.

Ler original