RESEARCHarXiv CS.CL·20/04/2026
Applied Explainability for Large Language Models: A Comparative Study
Este artigo apresenta um estudo comparativo de três técnicas de explicabilidade (Integrated Gradients, Attention Rollout e SHAP) aplicadas a um modelo DistilBERT para classificação de sentimento. A pesquisa conclui que métodos baseados em gradientes oferecem explicações mais estáveis e intuitivas, enquanto os baseados em atenção são eficientes, mas menos alinhados com as previsões.
27