RESEARCHarXiv CS.CL·20/4/2026
Applied Explainability for Large Language Models: A Comparative Study
Este artículo presenta un estudio comparativo de tres técnicas de explicabilidad (Integrated Gradients, Attention Rollout y SHAP) aplicadas a un modelo DistilBERT para clasificación de sentimientos. Los resultados muestran que la atribución basada en gradientes proporciona explicaciones más estables e intuitivas, mientras que los métodos basados en atención son eficientes pero menos alineados con las características predictivas.
27