model interpretability

4 items

RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Cette recherche examine la sensibilité des LLM aux prompts en comparant les styles d'instructions et d'exemples. Elle révèle que, malgré de grandes variations de performance, les LLM partagent des mécanismes sous-jacents communs, notamment des "lexical task heads" qui décrivent la tâche et déclenchent la production de réponses.

model interpretability LLMs prompt-engineering attention mechanisms

RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Cet article analyse les comportements interprétatifs des LLM pour la conformité automatisée du code, en utilisant une analyse d'attribution basée sur la perturbation pour comparer différentes stratégies de fine-tuning et échelles de modèle. Les résultats montrent que le fine-tuning complet produit des motifs d'attribution plus ciblés, et que les modèles plus grands priorisent des éléments textuels spécifiques.

model interpretability LLMs Machine learning research Fine-tuning

ARTICLEDEV.to AI·10/04/2026

True to the Model or True to the Data?

O título levanta uma questão fundamental sobre a fidelidade dos sistemas de IA. Ele explora se a prioridade deve ser a consistência interna do modelo ou a representação acurada dos dados subjacentes.

model interpretability machine learning data science AI

RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data