← heapsort-ai

Mechanistic Interpretability

5 items

RESEARCHDEV.to AI·4h atrás

Visualizing the Platonic Representation Hypothesis at a small scale - An elementary analysis on visual and semantic modalities.

Este artigo explora o impacto de diferentes modalidades na forma como os modelos de IA organizam e armazenam informações em seus espaços latentes. Inspirado na Hipótese de Representação Platônica, investiga se a convergência ocorre em pequena escala e em qual camada arquitetônica.

62
RESEARCHarXiv CS.LG·29d atrás

Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

Pesquisas mostram que a intervenção em posição única não consegue transferir a tarefa em Llama-3.2-3B, apesar da alta precisão de sondagem, indicando uma codificação de tarefa distribuída. Contudo, a intervenção multiposição alcança até 96% de transferência, identificando pela primeira vez o local causal da identidade da tarefa no aprendizado em contexto.

29
RESEARCHarXiv CS.CL·06/05/2026

How Language Models Process Negation

O estudo investiga como os Grandes Modelos de Linguagem (LLMs) processam a negação mecanisticamente, descobrindo que, embora os modelos de código aberto frequentemente errem, eles possuem componentes internos para o processamento correto da negação. Sua baixa precisão resulta da atenção de camadas tardias que promovem atalhos, e os modelos empregam tanto a atenção a frases negadas quanto a construção direta de representações de frases negativas.

27
RESEARCHarXiv CS.CL·24d atrás

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Este artigo mede a consistência e especificidade dos circuitos de modelos de linguagem usando patch de atribuição de borda em várias tarefas e modelos. Ele descobre alta reutilização de circuitos dentro da tarefa necessária para o desempenho, mas também uma sobreposição significativa entre as tarefas, indicando que os circuitos não são específicos da tarefa.

27