RESEARCH27

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

arXiv CS.CL·12 de mayo de 2026

Este artículo mide la consistencia y especificidad de los circuitos de modelos de lenguaje utilizando el parche de atribución de bordes en múltiples tareas y modelos. Encuentra una alta reutilización de circuitos dentro de la tarea necesaria para el rendimiento, pero también una superposición significativa entre tareas, lo que indica que los circuitos no son específicos de la tarea.

language models Mechanistic Interpretability AI interpretability model circuits circuit analysis

Leer original ↗