RESEARCHarXiv CS.CL·vor 20Std
ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding
ABLE (Attribution-Based Large-model Embedding) stellt ein Framework zur Darstellung großer Sprachmodelle vor, das den Interpretierbarkeitsraum nutzt. Es adressiert Herausforderungen beim systematischen Modellvergleich, indem es gradientenbasierte Feature-Attributionen aggregiert, um modellspezifische Eingabe-Empfindlichkeitsmuster zu erfassen.
54