RESEARCH54

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

arXiv CS.CL·9 de junho de 2026

ABLE (Attribution-Based Large-model Embedding) propõe um framework para representar LLMs usando o espaço de interpretabilidade e embeddings baseados em atribuição. Ele melhora a comparação de modelos agregando atribuições de características baseadas em gradiente para capturar padrões de sensibilidade de entrada específicos do modelo.

LLMs model representation security model comparison interpretability

Ler original ↗