RESEARCH27

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

arXiv CS.CL·12 mai 2026

Cet article mesure la cohérence et la spécificité des circuits des modèles de langage en utilisant le patch d'attribution d'arêtes sur plusieurs tâches et modèles. Il constate une forte réutilisation des circuits au sein d'une tâche, nécessaire à la performance, mais aussi un chevauchement significatif entre les tâches, indiquant que les circuits ne sont pas spécifiques à une tâche.

language models Mechanistic Interpretability AI interpretability model circuits circuit analysis

Lire l'original ↗