← heapsort-ai

model interpretability

4 items

RESEARCHarXiv CS.CL·20/04/2026

LLM attribution analysis across different fine-tuning strategies and model scales for automated code compliance

Este artigo analisa o comportamento interpretativo de LLMs para conformidade automatizada de código, utilizando análise de atribuição baseada em perturbação para comparar estratégias de fine-tuning e escalas de modelo. Os resultados indicam que o fine-tuning completo produz padrões de atribuição mais focados e que modelos maiores priorizam elementos textuais específicos.

28
RESEARCHarXiv CS.CL·07/04/2026

LangFIR: Discovering Sparse Language-Specific Features from Monolingual Data for Language Steering

Este artigo introduz LangFIR, um método que descobre características de linguagem esparsas e específicas a partir de dados monolíngues para direcionar a saída de LLMs. Ele supera a limitação de abordagens existentes que exigem dados multilingues caros, utilizando autoencoders esparsos e sequências de tokens aleatórios.

27