← heapsort-ai

model interpretability

4 items

RESEARCHarXiv CS.CL·20/4/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artículo analiza los comportamientos interpretativos de los LLM para el cumplimiento automatizado de códigos, utilizando un análisis de atribución basado en perturbaciones para comparar diferentes estrategias de ajuste fino y escalas de modelo. Los resultados muestran que el ajuste fino completo produce patrones de atribución más enfocados, y los modelos más grandes priorizan elementos textuales específicos.

28
RESEARCHarXiv CS.CL·7/4/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27