← heapsort-ai

Sparse autoencoders

3 items

RESEARCHarXiv CS.LG·25d atrás

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Este artigo investiga a interpretabilidade mecânica de modelos de fundação de EEG usando Sparse Autoencoders (SAEs) para desvendar suas previsões opacas. A pesquisa aplica SAEs em diferentes arquiteturas de transformadores de EEG, ancorando as características em uma taxonomia clínica para avaliar a monosemanticidade e o emaranhamento, e quantifica a seletividade da direção do conceito para revelar falhas representacionais.

28
RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27