← heapsort-ai

Model Analysis

3 items

RESEARCHarXiv CS.LG·28/4/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Esta investigación sistemática sobre los espectros de valores singulares durante el preentrenamiento de transformadores revela tres fenómenos clave: ondas de compresión transitorias que se propagan por las capas y gradientes espectrales persistentes. También identifica una asimetría funcional Q/K-V, donde las proyecciones de consulta/clave impulsan la dinámica dependiente de la profundidad.

29
RESEARCHarXiv CS.CL·hace 22d

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Este artículo presenta un análisis exhaustivo de los patrones de activación neural en seis arquitecturas distintas de modelos de lenguaje grandes (LLM), examinando su rendimiento en doce categorías de tareas cognitivas. Los hallazgos revelan diferencias fundamentales en cómo las arquitecturas de codificador y decodificador procesan diversas tareas cognitivas, con el razonamiento matemático produciendo la mayor entropía de atención y los modelos decodificadores mostrando una esparsidad significativamente mayor.

29
RESEARCHarXiv CS.CL·hace 6d

Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States

Este artículo revela que las sondas lineales, a menudo utilizadas para identificar representaciones de razonamiento distintas en estados ocultos de LLMs, en realidad detectan el formato de la tarea en lugar de los modos de razonamiento. La alta precisión observada en benchmarks con Qwen3-14B desapareció al controlar las variables de formato, sugiriendo un razonamiento en gran medida compartido no vinculado funcionalmente a la geometría del estado oculto.

27