RESEARCH55
The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry
arXiv CS.LG·28 de abril de 2026
Este estudo sistemático da pré-treinamento de transformadores revela três fenômenos-chave nos espectros de valores singulares das matrizes de peso, incluindo ondas de compressão transitórias e gradientes espectrais persistentes. A pesquisa também identifica uma assimetria funcional entre as projeções Q/K e V, onde Q/K impulsiona a dinâmica dependente da profundidade.
neural networksdeep learningmodel analysistraining dynamicsTransformers
Ler original ↗