AI interpretability

4 items

RESEARCHarXiv CS.AI·23/04/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Cet article présente un cadre d'interprétabilité conforme pour les agents LLM, visant à comprendre l'évolution temporelle des concepts. Il utilise la modélisation des récompenses par étapes et la prédiction conforme pour étiqueter les représentations internes et identifier les directions latentes de succès, d'échec ou de dérive du raisonnement.

LLM Agents AI interpretability Conformal Prediction

RESEARCHarXiv CS.LG·il y a 25j

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Cet article explore l'interprétabilité mécaniste des modèles fondamentaux d'EEG en appliquant des Autoencodeurs Creux (SAE) pour extraire des dictionnaires de caractéristiques disperses de leurs embeddings. Il compare la monosémanticité et l'enchevêtrement à travers différentes architectures de transformateurs EEG, ancrant ces caractéristiques dans une taxonomie clinique, et introduit le pilotage conceptuel pour quantifier la sélectivité et révéler les échecs de représentation.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.LG·il y a 14j

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Cette recherche introduit les Transformers Vérifiables, un cadre pour convertir les circuits de Transformer localisés par tâche en assertions bornées et vérifiables par solveur. Il permet la vérification de propriétés telles que l'équivalence fonctionnelle et la robustesse via un encodage SMT direct ou médiatisé par substitut.

AI interpretability Formal verification Transformers

RESEARCHarXiv CS.CL·il y a 28j

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Cet article mesure la cohérence et la spécificité des circuits des modèles de langage en utilisant le patch d'attribution d'arêtes sur plusieurs tâches et modèles. Il constate une forte réutilisation des circuits au sein d'une tâche, nécessaire à la performance, mais aussi un chevauchement significatif entre les tâches, indiquant que les circuits ne sont pas spécifiques à une tâche.

language models Mechanistic Interpretability AI interpretability model circuits