Mechanistic Interpretability

5 items

RESEARCHDEV.to AI·4h atrás

Visualizing the Platonic Representation Hypothesis at a small scale - An elementary analysis on visual and semantic modalities.

Este artigo explora o impacto de diferentes modalidades na forma como os modelos de IA organizam e armazenam informações em seus espaços latentes. Inspirado na Hipótese de Representação Platônica, investiga se a convergência ocorre em pequena escala e em qual camada arquitetônica.

Latent Space Neural Networks AI models Mechanistic Interpretability

RESEARCHarXiv CS.LG·29d atrás

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

Pesquisas mostram que a intervenção em posição única não consegue transferir a tarefa em Llama-3.2-3B, apesar da alta precisão de sondagem, indicando uma codificação de tarefa distribuída. Contudo, a intervenção multiposição alcança até 96% de transferência, identificando pela primeira vez o local causal da identidade da tarefa no aprendizado em contexto.

LLMs Mechanistic Interpretability in-context learning causal importance

RESEARCHarXiv CS.AI·24d atrás

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Esta pesquisa investiga a

Vision-Language Models Mechanistic Interpretability Attention mechanisms AI reliability

RESEARCHarXiv CS.CL·06/05/2026

How Language Models Process Negation

O estudo investiga como os Grandes Modelos de Linguagem (LLMs) processam a negação mecanisticamente, descobrindo que, embora os modelos de código aberto frequentemente errem, eles possuem componentes internos para o processamento correto da negação. Sua baixa precisão resulta da atenção de camadas tardias que promovem atalhos, e os modelos empregam tanto a atenção a frases negadas quanto a construção direta de representações de frases negativas.

LLMs Mechanistic Interpretability Attention mechanisms Natural Language Processing

RESEARCHarXiv CS.CL·24d atrás

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Este artigo mede a consistência e especificidade dos circuitos de modelos de linguagem usando patch de atribuição de borda em várias tarefas e modelos. Ele descobre alta reutilização de circuitos dentro da tarefa necessária para o desempenho, mas também uma sobreposição significativa entre as tarefas, indicando que os circuitos não são específicos da tarefa.

Language Models Mechanistic Interpretability AI interpretability model circuits