← heapsort-ai

Sparse autoencoders

3 items

RESEARCHarXiv CS.LG·vor 25T

Mechanistic Interpretability of EEG Foundation Models via Sparse Autoencoders

Diese Arbeit untersucht die mechanistische Interpretierbarkeit von EEG-Grundmodellen, indem sie Sparse Autoencoder (SAEs) anwendet, um spärliche Merkmalswörterbücher aus deren Einbettungen zu extrahieren. Sie vergleicht Monosemantizität und Verflechtung über verschiedene EEG-Transformer-Architekturen hinweg, verankert diese Merkmale in einer klinischen Taxonomie und führt Konzeptsteuerung ein, um die Selektivität zu quantifizieren und Darstellungsfehler aufzudecken.

28
RESEARCHarXiv CS.CL·4/7/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27