heapsort
RESEARCH27

Applied Explainability for Large Language Models: A Comparative Study

arXiv CS.CL·20 de abril de 2026

Este artículo presenta un estudio comparativo de tres técnicas de explicabilidad (Integrated Gradients, Attention Rollout y SHAP) aplicadas a un modelo DistilBERT para clasificación de sentimientos. Los resultados muestran que la atribución basada en gradientes proporciona explicaciones más estables e intuitivas, mientras que los métodos basados en atención son eficientes pero menos alineados con las características predictivas.

Leer original