interpretability

17 items

RESEARCHarXiv CS.CL·hace 20h

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) introduce un marco para representar grandes modelos de lenguaje aprovechando el espacio de interpretabilidad. Aborda los desafíos en la comparación sistemática de modelos al agregar atribuciones de características basadas en gradientes para capturar patrones de sensibilidad de entrada específicos del modelo.

LLMs model representation security model comparison

ARTICLEDEV.to AI·18/4/2026

Mastering AI UX: How to Animate Confidence Scores and Probability Distributions with Swift 6

Este artículo analiza cómo animar las puntuaciones de confianza y las distribuciones de probabilidad de la IA con Swift 6 puede transformar los modelos de "caja negra" en sistemas transparentes. Este enfoque mejora la confianza del usuario, proporciona retroalimentación en tiempo real y ayuda en la depuración al visualizar el "proceso de pensamiento" de la IA.

swiftui interpretability AI UX

RESEARCHarXiv CS.LG·hace 19d

Geometry-Lite: Interpretable Safety Probing via Layer-Wise Margin Geometry

Geometry-Lite es una nueva sonda a nivel de prompt diseñada para interpretar cómo se desarrolla la evidencia de seguridad a través de las capas en grandes modelos de lenguaje. Analiza la geometría de margen capa por capa utilizando diversas lecturas para comprender la formación de límites, mejorando la detección de seguridad sobre sondas de una sola capa.

deep learning Probing interpretability large language models

RESEARCHarXiv CS.CL·hace 4d

From Scoring to Explanations: Evaluating SHAP and LLM Rationales for Rubric-based Teaching Quality Assessment

Esta investigación propone un marco para la interpretabilidad a nivel de oración en la puntuación basada en rúbricas, combinando atribuciones de valor de Shapley con justificaciones de grandes modelos de lenguaje (LLMs). Compara modelos de lenguaje pre-entrenados ajustados y LLMs guiados para la evaluación de la calidad de la enseñanza, encontrando que los PLMs ofrecen una mejor precisión de predicción a pesar de la compresión de etiquetas.

LLMs Automated Scoring Shapley Values interpretability

ARTICLEDEV.to AI·8/4/2026

Announcing the OpenAI Safety Fellowship

O OpenAI Safety Fellowship é um programa de pesquisa focado na segurança da IA, abordando aspectos críticos como robustez, interpretabilidade e alinhamento de valores humanos. O texto detalha seus objetivos e componentes técnicos, como treinamento adversarial e técnicas de explicabilidade.

robustness OpenAI interpretability alignment

RESEARCHarXiv CS.AI·20/4/2026

LLM Reasoning Is Latent, Not the Chain of Thought

Este documento postula que el razonamiento de los LLM debe estudiarse como formación de trayectoria de estado latente, en lugar de una cadena de pensamiento (CoT) superficial y fiel. Formaliza tres hipótesis concurrentes sobre el objeto principal del razonamiento, afectando la fidelidad, interpretabilidad y evaluaciones.

Chain-of-Thought interpretability AI Reasoning large language models

RESEARCHarXiv CS.LG·hace 26d

OceanCBM: A Concept Bottleneck Model for Mechanistic Interpretability in Ocean Forecasting

OceanCBM es el primer modelo de cuello de botella de concepto (CBM) para la predicción espacio-temporal y la interrogación mecanicista de la dinámica oceánica. Predice el contenido de calor de la capa mixta, un precursor de las olas de calor marinas, utilizando supervisión mixta y conceptos de fluidodinámica geofísica para garantizar la fidelidad a la física real.

forecasting AI models Oceanography machine learning

DOCDEV.to AI·21/4/2026

Mastering AI UI: Building a Reusable, Animated Confidence Bar with Swift 6 and SwiftUI

Esta guía explica el papel crítico de una barra de confianza en aplicaciones de IA para generar confianza en el usuario y mejorar la transparencia sobre las predicciones del modelo. Detalla cómo construir una barra de confianza reutilizable y animada utilizando Swift 6 y SwiftUI.

swiftui user experience AI UI interpretability

RESEARCHAnthropic (YouTube)·7/5/2026

Translating Claude’s thoughts into language

Este contenido explora la fascinante área de traducir los procesos internos o "pensamientos" de un modelo de inteligencia artificial como Claude a un lenguaje comprensible. Investiga cómo las operaciones complejas de la IA pueden interpretarse y expresarse para comprender mejor su razonamiento.

cognitive AI Natural Language Processing interpretability AI

Translating Claude’s thoughts into language

NEWSMIT Tech Review AI·30/4/2026

This startup’s new mechanistic interpretability tool lets you debug LLMs

La startup Goodfire lanzó Silico, una nueva herramienta de interpretabilidad mecanicista que permite depurar y ajustar parámetros de LLMs durante el entrenamiento. Esto proporciona a los desarrolladores un control más detallado sobre el comportamiento de los modelos.

LLMs interpretability AI tools Debugging

RESEARCHarXiv CS.AI·9/5/2026

Understanding Annotator Safety Policy with Interpretability

El artículo presenta desafíos para comprender el desacuerdo de los anotadores sobre las políticas de seguridad de la IA, que pueden surgir de fallas operativas, ambigüedad de políticas o pluralismo de valores. Destaca la dificultad de discernir las causas fundamentales de estos desacuerdos y la falta de fiabilidad del razonamiento autoinformado por los anotadores.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.LG·4/5/2026

What Physics do Data-Driven MoCap-to-Radar Models Learn?

Esta investigación introduce un marco de interpretabilidad basado en la física para evaluar qué física aprenden los modelos de MoCap a radar impulsados por datos. Concluye que un bajo error de reconstrucción no garantiza la coherencia física, y la atención temporal es crucial para que los modelos basados en transformadores aprendan la física subyacente.

Physics Motion Capture machine learning interpretability

RESEARCHarXiv CS.LG·hace 17d

A Reproducible Log-Driven AutoML Framework for Interpretable Pipeline Optimization in Healthcare Risk Prediction

Este estudio introduce yvsoucom-iterkit, un framework AutoML determinístico y basado en registros para la optimización de pipelines interpretables en la predicción de riesgos sanitarios. Permite el análisis reproducible de los componentes del pipeline, revelando que el rendimiento está impulsado por un pequeño subconjunto de elementos interactivos como el aumento de datos, la elección del modelo y el manejo del desequilibrio.

Healthcare machine learning interpretability AutoML

RESEARCHarXiv CS.AI·hace 28d

Belief or Circuitry? Causal Evidence for In-Context Graph Learning

Este artículo investiga cómo los LLMs aprenden en contexto, utilizando una tarea de paseo aleatorio en grafos para explorar si coinciden con patrones o infieren estructura latente. Revela que ninguna explicación por sí sola es suficiente, presentando evidencia de codificación simultánea de topologías de grafos e intervenciones causales.

LLMs learning interpretability graph learning

RESEARCHarXiv CS.AI·9/4/2026

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

deterministic AI LLM applications interpretability AI reliability

RESEARCHarXiv CS.LG·6/4/2026

Prism: Policy Reuse via Interpretable Strategy Mapping in Reinforcement Learning

O artigo apresenta PRISM, uma estrutura para Reinforcement Learning que fundamenta as decisões de agentes em conceitos discretos e causalmente validados, usando-os como interface de transferência zero-shot. Ele demonstra que esses conceitos impulsionam diretamente o comportamento do agente e que a importância de um conceito pode ser dissociada de sua frequência de uso.

Strategy Mapping reinforcement learning Transfer Learning interpretability

NEWSGoogle DeepMind Blog·16/12/2025

Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior

Gemma Scope 2 foi lançado, disponibilizando ferramentas abertas de interpretabilidade para a família Gemma 3. Isso visa ajudar a comunidade de segurança de IA a aprofundar a compreensão do comportamento de modelos de linguagem complexos.

language models Gemma interpretability AI safety