← heapsort-ai

training dynamics

2 items

RESEARCHarXiv CS.AI·1d atrás

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

Este artigo de posição defende uma compreensão científica da IA que se concentre no estudo das dinâmicas de treinamento, em vez de apenas analisar modelos pós-treinamento. Ele enfatiza a previsão de resultados, a intervenção quando surgem problemas e o projeto de procedimentos de treinamento para produzir propriedades desejadas de forma confiável, estendendo o sucesso das leis de escala para além da perda, para capacidades, vieses, robustez e segurança.

60
RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Este estudo sistemático da pré-treinamento de transformadores revela três fenômenos-chave nos espectros de valores singulares das matrizes de peso, incluindo ondas de compressão transitórias e gradientes espectrais persistentes. A pesquisa também identifica uma assimetria funcional entre as projeções Q/K e V, onde Q/K impulsiona a dinâmica dependente da profundidade.

29