model interpretability

4 items

RESEARCHarXiv CS.CL·27/4/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Esta investigación explora la sensibilidad a los prompts en LLMs, comparando los estilos de instrucción y de ejemplo. Se encuentra que, a pesar de la variación en el rendimiento, los LLMs comparten mecanismos subyacentes comunes, como los "lexical task heads" que describen la tarea y activan la producción de respuestas.

model interpretability LLMs prompt-engineering attention mechanisms

RESEARCHarXiv CS.CL·20/4/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artículo analiza los comportamientos interpretativos de los LLM para el cumplimiento automatizado de códigos, utilizando un análisis de atribución basado en perturbaciones para comparar diferentes estrategias de ajuste fino y escalas de modelo. Los resultados muestran que el ajuste fino completo produce patrones de atribución más enfocados, y los modelos más grandes priorizan elementos textuales específicos.

model interpretability LLMs Machine learning research Fine-tuning

ARTICLEDEV.to AI·10/4/2026

True to the Model or True to the Data?

O título levanta uma questão fundamental sobre a fidelidade dos sistemas de IA. Ele explora se a prioridade deve ser a consistência interna do modelo ou a representação acurada dos dados subjacentes.

model interpretability machine learning data science AI

RESEARCHarXiv CS.CL·7/4/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

model interpretability Multilingual Models LLMs Monolingual Data