← heapsort-ai

Gradient Amplification

1 items

RESEARCHarXiv CS.LG·15/04/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Este artigo investiga a propagação de sinal na inicialização de transformers usando a norma jacobiana parcial média (APJN) para medir a amplificação do gradiente. A teoria estende a análise de APJN, prevê o comportamento assintótico da APJN em grande profundidade e explica a subcriticidade de arquiteturas sem normalização como Dynamic Tanh e Dynamic erf transformers.

29