← heapsort-ai

training dynamics

2 items

RESEARCHarXiv CS.AI·il y a 1j

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

Cet article de position plaide pour une compréhension scientifique de l'IA qui se concentre sur l'étude des dynamiques d'entraînement, plutôt que sur la simple analyse des modèles après l'entraînement. Il souligne l'importance de prédire les résultats, d'intervenir en cas de problèmes et de concevoir des procédures d'entraînement pour produire des propriétés souhaitées de manière fiable, en étendant le succès des lois d'échelle au-delà de la perte, aux capacités, aux biais, à la robustesse et à la sécurité.

60
RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Cette étude systématique des spectres de valeurs singulières lors du pré-entraînement des transformateurs révèle trois phénomènes clés : des ondes de compression transitoires et des gradients spectraux persistants. Elle identifie également une asymétrie fonctionnelle Q/K-V, où les projections de requête/clé dictent la dynamique dépendante de la profondeur.

29