← heapsort-ai

training dynamics

2 items

RESEARCHarXiv CS.AI·hace 1d

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

Este artículo de posición aboga por una comprensión científica de la IA que se centre en el estudio de las dinámicas de entrenamiento, en lugar de solo analizar los modelos post-entrenamiento. Enfatiza la predicción de resultados, la intervención cuando surgen problemas y el diseño de procedimientos de entrenamiento para producir propiedades deseadas de manera confiable, extendiendo el éxito de las leyes de escalamiento más allá de la pérdida, a las capacidades, sesgos, robustez y seguridad.

60
RESEARCHarXiv CS.LG·28/4/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Esta investigación sistemática sobre los espectros de valores singulares durante el preentrenamiento de transformadores revela tres fenómenos clave: ondas de compresión transitorias que se propagan por las capas y gradientes espectrales persistentes. También identifica una asimetría funcional Q/K-V, donde las proyecciones de consulta/clave impulsan la dinámica dependiente de la profundidad.

29