RESEARCH28

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

arXiv CS.LG·15 de mayo de 2026

Este artículo investiga la interpretabilidad mecánica de los modelos fundamentales de EEG aplicando Sparse Autoencoders (SAEs) para extraer diccionarios de características dispersas de sus incrustaciones. La investigación evalúa la monosemanticidad y el entrelazamiento en distintas arquitecturas de transformadores de EEG, fundamenta estas características en una taxonomía clínica e introduce la dirección de conceptos para cuantificar la selectividad y exponer fallas representacionales.

Clinical AI AI interpretability Foundation Models Sparse autoencoders EEG

Leer original ↗