model interpretability

4 items

RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Esta pesquisa investiga a sensibilidade de prompts em LLMs, comparando estilos baseados em instruções e exemplos. Descobre-se que, apesar da variação no desempenho, os LLMs compartilham mecanismos subjacentes comuns, como "lexical task heads" que descrevem a tarefa e disparam a produção de respostas.

model interpretability LLMs prompt-engineering attention mechanisms

RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artigo analisa o comportamento interpretativo de LLMs para conformidade automatizada de código, utilizando análise de atribuição baseada em perturbação para comparar estratégias de fine-tuning e escalas de modelo. Os resultados indicam que o fine-tuning completo produz padrões de atribuição mais focados e que modelos maiores priorizam elementos textuais específicos.

model interpretability LLMs Machine learning research Fine-tuning

ARTICLEDEV.to AI·10/04/2026

True to the Model or True to the Data?

O título levanta uma questão fundamental sobre a fidelidade dos sistemas de IA. Ele explora se a prioridade deve ser a consistência interna do modelo ou a representação acurada dos dados subjacentes.

model interpretability machine learning data science AI

RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data