← heapsort-ai

Model Analysis

3 items

RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Este estudo sistemático da pré-treinamento de transformadores revela três fenômenos-chave nos espectros de valores singulares das matrizes de peso, incluindo ondas de compressão transitórias e gradientes espectrais persistentes. A pesquisa também identifica uma assimetria funcional entre as projeções Q/K e V, onde Q/K impulsiona a dinâmica dependente da profundidade.

29
RESEARCHarXiv CS.CL·22d atrás

Neural Activation Patterns Across Language Model Architectures: A Comprehensive Analysis of Cognitive Task Performance

Este artigo apresenta uma análise abrangente dos padrões de ativação neural em seis arquiteturas distintas de modelos de linguagem grandes (LLMs), examinando seu desempenho em doze categorias de tarefas cognitivas. Os achados revelam diferenças fundamentais em como as arquiteturas de encoder e decoder processam tarefas diversas, com o raciocínio matemático gerando a maior entropia de atenção e modelos decodificadores exibindo maior esparsidade.

29
RESEARCHarXiv CS.CL·6d atrás

Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States

Este artigo revela que as sondas lineares, frequentemente usadas para identificar representações de raciocínio distintas em estados ocultos de LLMs, na verdade detectam o formato da tarefa em vez dos modos de raciocínio. A alta precisão observada em benchmarks com o Qwen3-14B desaparece ao controlar as variáveis de formato, sugerindo que o raciocínio é amplamente compartilhado e não funcionalmente ligado à geometria dos estados ocultos.

27