← heapsort-ai

model interpretability

4 items

RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Cette recherche examine la sensibilité des LLM aux prompts en comparant les styles d'instructions et d'exemples. Elle révèle que, malgré de grandes variations de performance, les LLM partagent des mécanismes sous-jacents communs, notamment des "lexical task heads" qui décrivent la tâche et déclenchent la production de réponses.

29
RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Cet article analyse les comportements interprétatifs des LLM pour la conformité automatisée du code, en utilisant une analyse d'attribution basée sur la perturbation pour comparer différentes stratégies de fine-tuning et échelles de modèle. Les résultats montrent que le fine-tuning complet produit des motifs d'attribution plus ciblés, et que les modèles plus grands priorisent des éléments textuels spécifiques.

28
RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27