AI interpretability

4 items

RESEARCHarXiv CS.AI·23/4/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Este artículo introduce un marco de interpretabilidad conformal para agentes LLM, con el fin de comprender la evolución temporal de conceptos. Combina el modelado de recompensas paso a paso y la predicción conformal para etiquetar representaciones internas e identificar direcciones latentes de éxito, fracaso o deriva del razonamiento.

LLM Agents AI interpretability Conformal Prediction

RESEARCHarXiv CS.LG·hace 25d

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Este artículo investiga la interpretabilidad mecánica de los modelos fundamentales de EEG aplicando Sparse Autoencoders (SAEs) para extraer diccionarios de características dispersas de sus incrustaciones. La investigación evalúa la monosemanticidad y el entrelazamiento en distintas arquitecturas de transformadores de EEG, fundamenta estas características en una taxonomía clínica e introduce la dirección de conceptos para cuantificar la selectividad y exponer fallas representacionales.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.LG·hace 14d

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Esta investigación presenta los Transformers Verificables, un marco para convertir circuitos de Transformer localizados por tarea en afirmaciones acotadas y verificables por un solucionador. Permite la verificación de propiedades como la equivalencia funcional y la robustez mediante codificación SMT directa o mediada por sustituto.

AI interpretability Formal verification Transformers

RESEARCHarXiv CS.CL·hace 28d

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Este artículo mide la consistencia y especificidad de los circuitos de modelos de lenguaje utilizando el parche de atribución de bordes en múltiples tareas y modelos. Encuentra una alta reutilización de circuitos dentro de la tarea necesaria para el rendimiento, pero también una superposición significativa entre tareas, lo que indica que los circuitos no son específicos de la tarea.

language models Mechanistic Interpretability AI interpretability model circuits