model interpretability

4 items

RESEARCHarXiv CS.CL·4/27/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

This research investigates LLM prompt sensitivity by comparing instruction-based and example-based prompting styles. It finds that despite performance variation, LLMs share common underlying mechanisms, specifically "lexical task heads" which are attention heads that literally describe the task and trigger answer production.

model interpretability LLMs prompt-engineering attention mechanisms

RESEARCHarXiv CS.CL·4/20/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

This paper analyzes the interpretive behaviors of LLMs for automated code compliance using perturbation-based attribution analysis, comparing different fine-tuning strategies and model scales. Results show full fine-tuning yields more focused attribution patterns, and larger models prioritize specific textual elements like numerical constraints.

model interpretability LLMs Machine learning research Fine-tuning

ARTICLEDEV.to AI·4/10/2026

True to the Model or True to the Data?

O título levanta uma questão fundamental sobre a fidelidade dos sistemas de IA. Ele explora se a prioridade deve ser a consistência interna do modelo ou a representação acurada dos dados subjacentes.

model interpretability machine learning data science AI

RESEARCHarXiv CS.CL·4/7/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data