RESEARCH28
Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders
arXiv CS.LG·15 de mayo de 2026
Este artículo investiga la interpretabilidad mecánica de los modelos fundamentales de EEG aplicando Sparse Autoencoders (SAEs) para extraer diccionarios de características dispersas de sus incrustaciones. La investigación evalúa la monosemanticidad y el entrelazamiento en distintas arquitecturas de transformadores de EEG, fundamenta estas características en una taxonomía clínica e introduce la dirección de conceptos para cuantificar la selectividad y exponer fallas representacionales.
Leer original ↗