← heapsort-ai

attention mechanisms

28 items

RESEARCHarXiv CS.LG·4/21/2026

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Dieser Artikel untersucht die asynchrone Ausrichtung im multimodalen Lernen, bei der ein dichter Primärstrom mit sporadischem externem Kontext fusioniert werden muss, was Modelle dazu zwingt, explizit über Aktualität und Vertrauen nachzudenken. Er schlägt CGCMA (Conditionally-Gated Cross-Modal Attention) vor, ein Modell, das die textkonditionierte Erdung von der verzögerungsbewussten Vertrauenskontrolle trennt und an Kryptowährungsmärkten getestet wird.

27
RESEARCHarXiv CS.AI·vor 28T

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Diese Forschung testet die "Aufmerksamkeits-Vertrauens-Annahme" bei Vision-Sprach-Modellen (VLMs) und stellt fest, dass die Aufmerksamkeitsstruktur ein fast nuller Prädiktor für Korrektheit ist. Die Studie verwendet eine einheitliche mechanistische Pipeline (VLM Reliability Probe), um Aufmerksamkeitsstruktur, Generationsdynamik und Hidden-State-Geometrie in drei VLM-Familien zu analysieren.

27
RESEARCHarXiv CS.CL·vor 7T

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

Dieses Papier stellt AEyeDE vor, einen auf Aufmerksamkeit basierenden Ansatz zur Erkennung von menschlicher und KI-Autorenschaft, der die Modellaufmerksamkeit als diskriminierendes Signal nutzt. Die Methode übertrifft Text-only-Baselines durchweg und zeigt Robustheit in verschiedenen Textgenerierungseinstellungen, wobei sie auf Standard-Benchmarks wettbewerbsfähig bleibt.

27
RESEARCHarXiv CS.AI·vor 12T

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE ist eine neuartige Technik zur Verbesserung der parallelen Generierung von Großen Sprachmodellen (LLMs), indem sie die Koordination und Zusammenarbeit zwischen mehreren Sequenzen zur Testzeit ermöglicht. Dies wird durch eine Inter-Sequenz-Aufmerksamkeitsmaske und eine RoPE-Erweiterung erreicht, die Positionsinformationen einführt und vielversprechende Ergebnisse bei mathematischen Denkaufgaben zeigt.

27
RESEARCHarXiv CS.LG·5/6/2026

On the Invariants of Softmax Attention

Diese Forschung definiert das "Energiefeld" in der Softmax-Aufmerksamkeit und deckt wesentliche invariante Eigenschaften auf. Sie unterscheidet zwischen mechanismusbezogenen Invarianten, die aus der algebraischen Struktur abgeleitet sind, und modellbezogenen Regularitäten, die in autoregressiven Sprachmodellen beobachtet werden.

27
RESEARCHarXiv CS.CL·5/6/2026

How Language Models Process Negation

Diese Studie untersucht, wie große Sprachmodelle (LLMs) die Negation mechanistisch verarbeiten, und zeigt, dass selbst Open-Weight-Modelle interne Komponenten für die korrekte Negationsverarbeitung besitzen, obwohl sie oft falsche Antworten liefern. Ihre geringe Genauigkeit wird auf die Aufmerksamkeitsleistung späterer Schichten zurückgeführt, die einfache Abkürzungen fördert, und die Modelle nutzen sowohl die Aufmerksamkeit auf negierte Phrasen als auch die direkte Konstruktion negativer Phrasendarstellungen.

27