← heapsort-ai

Model Analysis

3 items

RESEARCHarXiv CS.LG·4/28/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Diese systematische Untersuchung der Singulärwertspektren während des Transformer-Vortrainings deckt drei Schlüsselphänomene auf: transiente Kompressionswellen und persistente spektrale Gradienten. Sie zeigt auch eine funktionale Q/K-V-Asymmetrie, bei der Query/Key-Projektionen die tiefenabhängige Dynamik steuern.

29
RESEARCHarXiv CS.CL·vor 22T

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Dieses Papier präsentiert eine umfassende Analyse neuronaler Aktivierungsmuster in sechs verschiedenen Architekturen großer Sprachmodelle (LLM), wobei deren Leistung bei zwölf kognitiven Aufgabenkategorien untersucht wird. Die Ergebnisse offenbaren grundlegende Unterschiede in der Verarbeitung vielfältiger kognitiver Aufgaben durch Encoder- und Decoder-Architekturen, wobei mathematisches Denken die höchste Aufmerksamkeitsentropie erzeugt und Decoder-Modelle signifikant höhere Sparsity aufweisen.

29
RESEARCHarXiv CS.CL·vor 6T

Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States

Dieser Artikel zeigt, dass lineare Sonden, die oft verwendet werden, um unterschiedliche Schlussfolgerungsrepräsentationen in verborgenen Zuständen von LLMs zu identifizieren, tatsächlich das Aufgabenformat und nicht die Schlussfolgerungsmodi erkennen. Die hohe Genauigkeit, die bei Benchmarks mit Qwen3-14B beobachtet wurde, verschwand bei der Kontrolle von Formatvariablen, was auf weitgehend geteilte Schlussfolgerungen hindeutet, die nicht funktional mit der Geometrie des verborgenen Zustands verbunden sind.

27