ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding
ABLE (Attribution-Based Large-model Embedding) introduce un marco para representar grandes modelos de lenguaje aprovechando el espacio de interpretabilidad. Aborda los desafíos en la comparación sistemática de modelos al agregar atribuciones de características basadas en gradientes para capturar patrones de sensibilidad de entrada específicos del modelo.




