RESEARCH27

How Language Models Process Negation

arXiv CS.CL·6. Mai 2026

Diese Studie untersucht, wie große Sprachmodelle (LLMs) die Negation mechanistisch verarbeiten, und zeigt, dass selbst Open-Weight-Modelle interne Komponenten für die korrekte Negationsverarbeitung besitzen, obwohl sie oft falsche Antworten liefern. Ihre geringe Genauigkeit wird auf die Aufmerksamkeitsleistung späterer Schichten zurückgeführt, die einfache Abkürzungen fördert, und die Modelle nutzen sowohl die Aufmerksamkeit auf negierte Phrasen als auch die direkte Konstruktion negativer Phrasendarstellungen.

LLMs Mechanistic Interpretability attention mechanisms Natural Language Processing Negation

Original lesen ↗