RESEARCH28

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

arXiv CS.LG·15 mai 2026

Cet article explore l'interprétabilité mécaniste des modèles fondamentaux d'EEG en appliquant des Autoencodeurs Creux (SAE) pour extraire des dictionnaires de caractéristiques disperses de leurs embeddings. Il compare la monosémanticité et l'enchevêtrement à travers différentes architectures de transformateurs EEG, ancrant ces caractéristiques dans une taxonomie clinique, et introduit le pilotage conceptuel pour quantifier la sélectivité et révéler les échecs de représentation.

Clinical AI AI interpretability Foundation Models Sparse autoencoders EEG

Lire l'original ↗