RESEARCH54

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

arXiv CS.CL·9 juin 2026

ABLE (Attribution-Based Large-model Embedding) propose un cadre pour représenter les grands modèles linguistiques en exploitant l'espace d'interprétabilité. Il améliore la comparaison systématique des modèles en agrégeant les attributions de caractéristiques basées sur le gradient pour saisir les modèles de sensibilité d'entrée spécifiques au modèle.

LLMs model representation security model comparison interpretability

Lire l'original ↗