Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders
Este artículo investiga la interpretabilidad mecánica de los modelos fundamentales de EEG aplicando Sparse Autoencoders (SAEs) para extraer diccionarios de características dispersas de sus incrustaciones. La investigación evalúa la monosemanticidad y el entrelazamiento en distintas arquitecturas de transformadores de EEG, fundamenta estas características en una taxonomía clínica e introduce la dirección de conceptos para cuantificar la selectividad y exponer fallas representacionales.