Sparse autoencoders

3 items

RESEARCHarXiv CS.LG·08/05/2026

Structural Instability of Feature Composition

O artigo apresenta um arcabouço geométrico para analisar a instabilidade da composição de características em Autoencoders Esparsos (SAEs), focando na direção composicional. Ele deriva um limiar assintótico de colapso composicional sob um modelo de dicionário esférico.

Feature Composition Transformer architectures Sparse autoencoders AI Research

RESEARCHarXiv CS.LG·25d atrás

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Este artigo investiga a interpretabilidade mecânica de modelos de fundação de EEG usando Sparse Autoencoders (SAEs) para desvendar suas previsões opacas. A pesquisa aplica SAEs em diferentes arquiteturas de transformadores de EEG, ancorando as características em uma taxonomia clínica para avaliar a monosemanticidade e o emaranhamento, e quantifica a seletividade da direção do conceito para revelar falhas representacionais.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data