← heapsort-ai

interpretability

17 items

RESEARCHarXiv CS.CL·19h atrás

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) propõe um framework para representar LLMs usando o espaço de interpretabilidade e embeddings baseados em atribuição. Ele melhora a comparação de modelos agregando atribuições de características baseadas em gradiente para capturar padrões de sensibilidade de entrada específicos do modelo.

54
RESEARCHarXiv CS.LG·19d atrás

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite é uma nova sonda de nível de prompt projetada para interpretar como a evidência de segurança se desenvolve nas camadas de grandes modelos de linguagem. Ele analisa a geometria da margem camada por camada usando várias leituras para entender a formação de limites, melhorando a detecção de segurança em relação a sondas de camada única.

29
RESEARCHarXiv CS.CL·4d atrás

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Esta pesquisa propõe uma estrutura para a interpretabilidade ao nível da frase na pontuação baseada em rubricas, combinando atribuições de valor de Shapley com justificativas de grandes modelos de linguagem (LLMs). Ela compara modelos de linguagem pré-treinados ajustados e LLMs direcionados para avaliação da qualidade de ensino, constatando que os PLMs oferecem melhor precisão de previsão apesar da compressão de rótulos.

28
ARTICLEDEV.to AI·08/04/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

28
RESEARCHarXiv CS.LG·26d atrás

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM é o primeiro modelo de gargalo de conceito (CBM) para previsão espaço-temporal e interrogação mecanicista da dinâmica oceânica. Ele prevê o conteúdo de calor da camada mista, um precursor de ondas de calor marinhas, usando supervisão mista e conceitos de fluidodinâmica geofísica para garantir fidelidade à física subjacente.

27
RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

O artigo aborda os desafios de compreender o desacordo entre anotadores em relação às políticas de segurança de IA, que podem surgir de falhas operacionais, ambiguidade de políticas ou pluralismo de valores. Destaca a dificuldade em discernir as causas-raiz desses desacordos e a falta de confiabilidade do raciocínio auto-relatado pelos anotadores.

27
RESEARCHarXiv CS.LG·17d atrás

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Este estudo apresenta yvsoucom-iterkit, um framework AutoML determinístico e orientado por logs para otimização de pipelines interpretáveis na previsão de risco em saúde. Ele permite a análise reprodutível de componentes de pipeline, mostrando que o desempenho é impulsionado por um pequeno subconjunto de elementos interativos como aumento de dados, escolha do modelo e tratamento de desequilíbrio.

27
RESEARCHarXiv CS.AI·09/04/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

27
RESEARCHarXiv CS.LG·06/04/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

27