AI interpretability

4 items

RESEARCHarXiv CS.AI·4/23/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Dieses Papier stellt einen konformen Interpretierbarkeitsrahmen für LLM-Agenten vor, um die zeitliche Entwicklung von Konzepten zu verstehen. Es kombiniert schrittweise Belohnungsmodellierung mit konformer Vorhersage, um interne Repräsentationen statistisch zu kennzeichnen und latente Richtungen für Erfolg, Misserfolg oder Argumentationsdrift zu identifizieren.

LLM Agents AI interpretability Conformal Prediction

RESEARCHarXiv CS.LG·vor 25T

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Diese Arbeit untersucht die mechanistische Interpretierbarkeit von EEG-Grundmodellen, indem sie Sparse Autoencoder (SAEs) anwendet, um spärliche Merkmalswörterbücher aus deren Einbettungen zu extrahieren. Sie vergleicht Monosemantizität und Verflechtung über verschiedene EEG-Transformer-Architekturen hinweg, verankert diese Merkmale in einer klinischen Taxonomie und führt Konzeptsteuerung ein, um die Selektivität zu quantifizieren und Darstellungsfehler aufzudecken.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.LG·vor 14T

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Diese Forschung stellt Verifiable Transformers vor, ein Framework zur Umwandlung aufgabenlokalisierter Transformer-Schaltungen in begrenzte, solver-prüfbare Behauptungen. Es ermöglicht die Überprüfung von Eigenschaften wie funktionale Äquivalenz und Robustheit durch direkte oder surrogat-vermittelte SMT-Kodierung.

AI interpretability Formal verification Transformers

RESEARCHarXiv CS.CL·vor 28T

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Dieser Artikel misst die Konsistenz und Spezifität von Sprachmodellschaltungen mittels Kantenattributions-Patching über mehrere Aufgaben und Modelle hinweg. Er findet eine hohe Wiederverwendung von Schaltungen innerhalb einer Aufgabe, die für die Leistung notwendig ist, aber auch eine erhebliche Überschneidung zwischen den Aufgaben, was darauf hindeutet, dass Schaltungen nicht aufgabenpezifisch sind.

language models Mechanistic Interpretability AI interpretability model circuits