Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders
Este artigo investiga a interpretabilidade mecânica de modelos de fundação de EEG usando Sparse Autoencoders (SAEs) para desvendar suas previsões opacas. A pesquisa aplica SAEs em diferentes arquiteturas de transformadores de EEG, ancorando as características em uma taxonomia clínica para avaliar a monosemanticidade e o emaranhamento, e quantifica a seletividade da direção do conceito para revelar falhas representacionais.