ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding
ABLE (Attribution-Based Large-model Embedding) propõe um framework para representar LLMs usando o espaço de interpretabilidade e embeddings baseados em atribuição. Ele melhora a comparação de modelos agregando atribuições de características baseadas em gradiente para capturar padrões de sensibilidade de entrada específicos do modelo.
