← heapsort-ai

training dynamics

2 items

RESEARCHarXiv CS.AI·vor 1T

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

Dieses Positionspapier plädiert für ein wissenschaftliches Verständnis von KI, das sich auf die Untersuchung der Trainingsdynamik konzentriert, anstatt Modelle nur nach dem Training zu analysieren. Es betont die Vorhersage von Ergebnissen, das Eingreifen bei Problemen und das Design von Trainingsverfahren, um gewünschte Eigenschaften zuverlässig zu erzeugen, und erweitert den Erfolg von Skalierungsgesetzen über den Verlust hinaus auf Fähigkeiten, Verzerrungen, Robustheit und Sicherheitsrelevanz.

60
RESEARCHarXiv CS.LG·4/28/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Diese systematische Untersuchung der Singulärwertspektren während des Transformer-Vortrainings deckt drei Schlüsselphänomene auf: transiente Kompressionswellen und persistente spektrale Gradienten. Sie zeigt auch eine funktionale Q/K-V-Asymmetrie, bei der Query/Key-Projektionen die tiefenabhängige Dynamik steuern.

29