RESEARCHarXiv CS.CL·4/20/2026
Applied Explainability for Large Language Models: A Comparative Study
Diese Studie vergleicht drei Erklärbarkeitstechniken (Integrated Gradients, Attention Rollout und SHAP) an einem fein abgestimmten DistilBERT-Modell für die Sentimentklassifikation. Die Ergebnisse zeigen, dass gradientenbasierte Ansätze stabilere und intuitivere Erklärungen liefern, während auf Aufmerksamkeit basierende Methoden zwar effizient, aber weniger auf vorhersagerelevante Merkmale abgestimmt sind.
27