← heapsort-ai

model interpretability

4 items

RESEARCHarXiv CS.CL·4/27/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Diese Forschung untersucht die Prompt-Sensitivität von LLMs durch den Vergleich von instruktionsbasierten und beispielbasierten Prompt-Stilen. Es wird festgestellt, dass LLMs trotz großer Leistungsvariationen gemeinsame zugrunde liegende Mechanismen nutzen, insbesondere „lexical task heads“, die die Aufgabe beschreiben und die Antwortgenerierung auslösen.

29
RESEARCHarXiv CS.CL·4/20/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Dieses Papier analysiert das Interpretationsverhalten von LLMs für die automatisierte Code-Compliance mittels perturbationsbasierter Attributionsanalyse, wobei verschiedene Fine-Tuning-Strategien und Modellgrößen verglichen werden. Die Ergebnisse zeigen, dass vollständiges Fine-Tuning fokussiertere Attributionsmuster erzeugt und größere Modelle spezifische Textelemente priorisieren.

28
RESEARCHarXiv CS.CL·4/7/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27