RESEARCH28

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

arXiv CS.LG·15 de maio de 2026

Este artigo investiga a interpretabilidade mecânica de modelos de fundação de EEG usando Sparse Autoencoders (SAEs) para desvendar suas previsões opacas. A pesquisa aplica SAEs em diferentes arquiteturas de transformadores de EEG, ancorando as características em uma taxonomia clínica para avaliar a monosemanticidade e o emaranhamento, e quantifica a seletividade da direção do conceito para revelar falhas representacionais.

Clinical AI AI interpretability Foundation Models Sparse autoencoders EEG

Ler original ↗