RESEARCH27

How Much Do Circuits Tell Us? Measuring the Consistency and Specificity of Language Model Circuits

arXiv CS.CL·12. Mai 2026

Dieser Artikel misst die Konsistenz und Spezifität von Sprachmodellschaltungen mittels Kantenattributions-Patching über mehrere Aufgaben und Modelle hinweg. Er findet eine hohe Wiederverwendung von Schaltungen innerhalb einer Aufgabe, die für die Leistung notwendig ist, aber auch eine erhebliche Überschneidung zwischen den Aufgaben, was darauf hindeutet, dass Schaltungen nicht aufgabenpezifisch sind.

language models Mechanistic Interpretability AI interpretability model circuits circuit analysis

Original lesen ↗