Sparse autoencoders

3 items

RESEARCHarXiv CS.LG·08/05/2026

Structural Instability of Feature Composition

Cet article présente un cadre géométrique pour analyser l'instabilité des unions de caractéristiques dans les Autoencodeurs Sparses (SAEs), notamment en ce qui concerne la direction compositionnelle. Il dérive un seuil asymptotique de collapse compositionnel sous un modèle de dictionnaire sphérique.

Feature Composition Transformer architectures Sparse autoencoders AI Research

RESEARCHarXiv CS.LG·il y a 25j

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Cet article explore l'interprétabilité mécaniste des modèles fondamentaux d'EEG en appliquant des Autoencodeurs Creux (SAE) pour extraire des dictionnaires de caractéristiques disperses de leurs embeddings. Il compare la monosémanticité et l'enchevêtrement à travers différentes architectures de transformateurs EEG, ancrant ces caractéristiques dans une taxonomie clinique, et introduit le pilotage conceptuel pour quantifier la sélectivité et révéler les échecs de représentation.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data