interpretability

17 items

RESEARCHarXiv CS.CL·19h atrás

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) propõe um framework para representar LLMs usando o espaço de interpretabilidade e embeddings baseados em atribuição. Ele melhora a comparação de modelos agregando atribuições de características baseadas em gradiente para capturar padrões de sensibilidade de entrada específicos do modelo.

LLMs model representation security model comparison

ARTICLEDEV.to AI·18/04/2026

Mastering AI UX: How to Animate Confidence Scores and Probability Distributions with Swift 6

Este artigo explora como animar scores de confiança e distribuições de probabilidade em IA com Swift 6 pode transformar modelos de "caixa preta" em sistemas transparentes. Essa abordagem aumenta a confiança do usuário, oferece feedback em tempo real e auxilia na depuração, visualizando o "processo de pensamento" da IA.

swiftui interpretability AI UX

RESEARCHarXiv CS.LG·19d atrás

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite é uma nova sonda de nível de prompt projetada para interpretar como a evidência de segurança se desenvolve nas camadas de grandes modelos de linguagem. Ele analisa a geometria da margem camada por camada usando várias leituras para entender a formação de limites, melhorando a detecção de segurança em relação a sondas de camada única.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.CL·4d atrás

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Esta pesquisa propõe uma estrutura para a interpretabilidade ao nível da frase na pontuação baseada em rubricas, combinando atribuições de valor de Shapley com justificativas de grandes modelos de linguagem (LLMs). Ela compara modelos de linguagem pré-treinados ajustados e LLMs direcionados para avaliação da qualidade de ensino, constatando que os PLMs oferecem melhor precisão de previsão apesar da compressão de rótulos.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.AI·20/04/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Este artigo de posição argumenta que o raciocínio de LLMs deve ser estudado como formação de trajetória de estado latente, em vez de cadeia de pensamento (CoT) superficial e fiel. Ele formaliza três hipóteses concorrentes sobre o objeto primário do raciocínio, impactando alegações sobre fidelidade, interpretabilidade e benchmarks.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.LG·26d atrás

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM é o primeiro modelo de gargalo de conceito (CBM) para previsão espaço-temporal e interrogação mecanicista da dinâmica oceânica. Ele prevê o conteúdo de calor da camada mista, um precursor de ondas de calor marinhas, usando supervisão mista e conceitos de fluidodinâmica geofísica para garantir fidelidade à física subjacente.

forecasting AI models Oceanography machine learning

DOCDEV.to AI·21/04/2026

Mastering AI UI: Building a Reusable, Animated Confidence Bar with Swift 6 and SwiftUI

Este guia explica o papel crucial de uma barra de confiança em aplicações de IA para construir a confiança do usuário e aumentar a transparência sobre as previsões do modelo. Ele detalha como construir uma barra de confiança reutilizável e animada usando Swift 6 e SwiftUI.

swiftui user experience AI UI interpretability

RESEARCHAnthropic (YouTube)·07/05/2026

Translating Claude’s thoughts into language

Este conteúdo explora a fascinante área de traduzir os processos internos ou "pensamentos" de um modelo de inteligência artificial como o Claude em linguagem compreensível. Ele investiga como as operações complexas da IA podem ser interpretadas e expressas para melhor entender seu raciocínio.

cognitive AI natural language processing interpretability AI

Translating Claude’s thoughts into language

NEWSMIT Tech Review AI·30/04/2026

This startup’s new mechanistic interpretability tool lets you debug LLMs

A startup Goodfire lançou Silico, uma nova ferramenta de interpretatividade mecanicista que permite depurar e ajustar parâmetros de LLMs durante o treinamento. Isso oferece aos desenvolvedores um controle mais refinado sobre o comportamento dos modelos.

LLMs interpretability AI tools Debugging

RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

O artigo aborda os desafios de compreender o desacordo entre anotadores em relação às políticas de segurança de IA, que podem surgir de falhas operacionais, ambiguidade de políticas ou pluralismo de valores. Destaca a dificuldade em discernir as causas-raiz desses desacordos e a falta de confiabilidade do raciocínio auto-relatado pelos anotadores.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.LG·04/05/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Este artigo de pesquisa introduz uma estrutura de interpretabilidade baseada em física para modelos de MoCap para radar. Ele avalia se esses modelos aprendem a física subjacente, revelando que a atenção temporal é crucial para a consistência física em modelos baseados em transformadores.

Physics Motion Capture machine learning interpretability

RESEARCHarXiv CS.LG·17d atrás

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Este estudo apresenta yvsoucom-iterkit, um framework AutoML determinístico e orientado por logs para otimização de pipelines interpretáveis na previsão de risco em saúde. Ele permite a análise reprodutível de componentes de pipeline, mostrando que o desempenho é impulsionado por um pequeno subconjunto de elementos interativos como aumento de dados, escolha do modelo e tratamento de desequilíbrio.

Healthcare machine learning interpretability AutoML

RESEARCHarXiv CS.AI·28d atrás

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Este trabalho investiga como LLMs aprendem no contexto, utilizando uma tarefa de caminhada aleatória em grafos para explorar se eles combinam padrões ou inferem estrutura latente. A pesquisa revela que nenhuma abordagem é suficiente por si só, com evidências de codificação simultânea de topologias de grafos e intervenções causais.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·09/04/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

deterministic AI LLM applications interpretability AI reliability

RESEARCHarXiv CS.LG·06/04/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

NEWSGoogle DeepMind Blog·16/12/2025

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior

Gemma Scope 2 foi lançado, disponibilizando ferramentas abertas de interpretabilidade para a família Gemma 3. Isso visa ajudar a comunidade de segurança de IA a aprofundar a compreensão do comportamento de modelos de linguagem complexos.

language models Gemma interpretability AI safety