Sparse autoencoders

3 items

RESEARCHarXiv CS.LG·5/8/2026

Structural Instability of Feature Composition

Diese Arbeit stellt einen geometrischen Rahmen zur Analyse der Instabilität von Merkmalsvereinigungen in Sparse Autoencodern (SAEs vor, insbesondere im Hinblick auf die Kompositionslenkung. Sie leitet eine asymptotische Kompositionskollaps-Schwelle unter einem sphärischen Wörterbuchmodell ab.

Feature Composition Transformer architectures Sparse autoencoders AI Research

RESEARCHarXiv CS.LG·vor 25T

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Diese Arbeit untersucht die mechanistische Interpretierbarkeit von EEG-Grundmodellen, indem sie Sparse Autoencoder (SAEs) anwendet, um spärliche Merkmalswörterbücher aus deren Einbettungen zu extrahieren. Sie vergleicht Monosemantizität und Verflechtung über verschiedene EEG-Transformer-Architekturen hinweg, verankert diese Merkmale in einer klinischen Taxonomie und führt Konzeptsteuerung ein, um die Selektivität zu quantifizieren und Darstellungsfehler aufzudecken.

Clinical AI AI interpretability Foundation Models Sparse autoencoders

RESEARCHarXiv CS.CL·4/7/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data