RESEARCH54

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

arXiv CS.CL·9. Juni 2026

ABLE (Attribution-Based Large-model Embedding) stellt ein Framework zur Darstellung großer Sprachmodelle vor, das den Interpretierbarkeitsraum nutzt. Es adressiert Herausforderungen beim systematischen Modellvergleich, indem es gradientenbasierte Feature-Attributionen aggregiert, um modellspezifische Eingabe-Empfindlichkeitsmuster zu erfassen.

LLMs model representation security model comparison interpretability

Original lesen ↗