← heapsort-ai

AI interpretability

4 items

RESEARCHarXiv CS.AI·4/23/2026

From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents

Dieses Papier stellt einen konformen Interpretierbarkeitsrahmen für LLM-Agenten vor, um die zeitliche Entwicklung von Konzepten zu verstehen. Es kombiniert schrittweise Belohnungsmodellierung mit konformer Vorhersage, um interne Repräsentationen statistisch zu kennzeichnen und latente Richtungen für Erfolg, Misserfolg oder Argumentationsdrift zu identifizieren.

28
RESEARCHarXiv CS.LG·vor 25T

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Diese Arbeit untersucht die mechanistische Interpretierbarkeit von EEG-Grundmodellen, indem sie Sparse Autoencoder (SAEs) anwendet, um spärliche Merkmalswörterbücher aus deren Einbettungen zu extrahieren. Sie vergleicht Monosemantizität und Verflechtung über verschiedene EEG-Transformer-Architekturen hinweg, verankert diese Merkmale in einer klinischen Taxonomie und führt Konzeptsteuerung ein, um die Selektivität zu quantifizieren und Darstellungsfehler aufzudecken.

28
RESEARCHarXiv CS.CL·vor 28T

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

Dieser Artikel misst die Konsistenz und Spezifität von Sprachmodellschaltungen mittels Kantenattributions-Patching über mehrere Aufgaben und Modelle hinweg. Er findet eine hohe Wiederverwendung von Schaltungen innerhalb einer Aufgabe, die für die Leistung notwendig ist, aber auch eine erhebliche Überschneidung zwischen den Aufgaben, was darauf hindeutet, dass Schaltungen nicht aufgabenpezifisch sind.

27