RESEARCH27
Applied Explainability for Large Language Models: A Comparative Study
arXiv CS.CL·20. April 2026
Diese Studie vergleicht drei Erklärbarkeitstechniken (Integrated Gradients, Attention Rollout und SHAP) an einem fein abgestimmten DistilBERT-Modell für die Sentimentklassifikation. Die Ergebnisse zeigen, dass gradientenbasierte Ansätze stabilere und intuitivere Erklärungen liefern, während auf Aufmerksamkeit basierende Methoden zwar effizient, aber weniger auf vorhersagerelevante Merkmale abgestimmt sind.
Original lesen ↗