Sparse autoencoders

3 items

RESEARCHarXiv CS.LG·8/5/2026

Structural Instability of Feature Composition

El artículo introduce un marco geométrico para analizar la inestabilidad de la unión de características en Autoencoders Escasos (SAEs), centrándose en la dirección composicional. Deriva un umbral asintótico de colapso composicional bajo un modelo de diccionario esférico.

Feature Composition Transformer architectures Sparse autoencoders AI Research

RESEARCHarXiv CS.LG·hace 25d

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Este artículo investiga la interpretabilidad mecánica de los modelos fundamentales de EEG aplicando Sparse Autoencoders (SAEs) para extraer diccionarios de características dispersas de sus incrustaciones. La investigación evalúa la monosemanticidad y el entrelazamiento en distintas arquitecturas de transformadores de EEG, fundamenta estas características en una taxonomía clínica e introduce la dirección de conceptos para cuantificar la selectividad y exponer fallas representacionales.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.CL·7/4/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data