← heapsort-ai

Model Analysis

3 items

RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Cette étude systématique des spectres de valeurs singulières lors du pré-entraînement des transformateurs révèle trois phénomènes clés : des ondes de compression transitoires et des gradients spectraux persistants. Elle identifie également une asymétrie fonctionnelle Q/K-V, où les projections de requête/clé dictent la dynamique dépendante de la profondeur.

29
RESEARCHarXiv CS.CL·il y a 22j

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Cet article présente une analyse complète des schémas d'activation neuronale à travers six architectures distinctes de grands modèles de langage (LLM), examinant leurs performances sur douze catégories de tâches cognitives. Les résultats révèlent des différences fondamentales dans la manière dont les architectures d'encodeur et de décodeur traitent diverses tâches cognitives, le raisonnement mathématique produisant la plus haute entropie d'attention et les modèles décodeurs présentant une parcimonie significativement plus élevée.

29
RESEARCHarXiv CS.CL·il y a 6j

Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States

Cet article révèle que les sondes linéaires, souvent utilisées pour identifier des représentations de raisonnement distinctes dans les états cachés des LLM, détectent en fait le format de la tâche plutôt que les modes de raisonnement. La haute précision observée sur les benchmarks avec Qwen3-14B a disparu en contrôlant les variables de format, suggérant un raisonnement largement partagé et non fonctionnellement lié à la géométrie de l'état caché.

27