RESEARCH28

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

arXiv CS.LG·15. Mai 2026

Diese Arbeit untersucht die mechanistische Interpretierbarkeit von EEG-Grundmodellen, indem sie Sparse Autoencoder (SAEs) anwendet, um spärliche Merkmalswörterbücher aus deren Einbettungen zu extrahieren. Sie vergleicht Monosemantizität und Verflechtung über verschiedene EEG-Transformer-Architekturen hinweg, verankert diese Merkmale in einer klinischen Taxonomie und führt Konzeptsteuerung ein, um die Selektivität zu quantifizieren und Darstellungsfehler aufzudecken.

Clinical AI AI interpretability Foundation Models Sparse autoencoders EEG

Original lesen ↗