attention mechanisms

28 items

RESEARCHarXiv CS.LG·4/21/2026

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Dieser Artikel untersucht die asynchrone Ausrichtung im multimodalen Lernen, bei der ein dichter Primärstrom mit sporadischem externem Kontext fusioniert werden muss, was Modelle dazu zwingt, explizit über Aktualität und Vertrauen nachzudenken. Er schlägt CGCMA (Conditionally-Gated Cross-Modal Attention) vor, ein Modell, das die textkonditionierte Erdung von der verzögerungsbewussten Vertrauenskontrolle trennt und an Kryptowährungsmärkten getestet wird.

multimodal AI machine learning attention mechanisms Time Series Analysis

RESEARCHarXiv CS.AI·vor 28T

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Diese Forschung testet die "Aufmerksamkeits-Vertrauens-Annahme" bei Vision-Sprach-Modellen (VLMs) und stellt fest, dass die Aufmerksamkeitsstruktur ein fast nuller Prädiktor für Korrektheit ist. Die Studie verwendet eine einheitliche mechanistische Pipeline (VLM Reliability Probe), um Aufmerksamkeitsstruktur, Generationsdynamik und Hidden-State-Geometrie in drei VLM-Familien zu analysieren.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

RESEARCHarXiv CS.CL·vor 7T

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

Dieses Papier stellt AEyeDE vor, einen auf Aufmerksamkeit basierenden Ansatz zur Erkennung von menschlicher und KI-Autorenschaft, der die Modellaufmerksamkeit als diskriminierendes Signal nutzt. Die Methode übertrifft Text-only-Baselines durchweg und zeigt Robustheit in verschiedenen Textgenerierungseinstellungen, wobei sie auf Standard-Benchmarks wettbewerbsfähig bleibt.

AI detection machine learning NLP attention mechanisms

RESEARCHarXiv CS.AI·vor 12T

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE ist eine neuartige Technik zur Verbesserung der parallelen Generierung von Großen Sprachmodellen (LLMs), indem sie die Koordination und Zusammenarbeit zwischen mehreren Sequenzen zur Testzeit ermöglicht. Dies wird durch eine Inter-Sequenz-Aufmerksamkeitsmaske und eine RoPE-Erweiterung erreicht, die Positionsinformationen einführt und vielversprechende Ergebnisse bei mathematischen Denkaufgaben zeigt.

mathematical reasoning attention mechanisms Positional Encoding Parallel Processing

RESEARCHarXiv CS.LG·5/6/2026

On the Invariants of Softmax Attention

Diese Forschung definiert das "Energiefeld" in der Softmax-Aufmerksamkeit und deckt wesentliche invariante Eigenschaften auf. Sie unterscheidet zwischen mechanismusbezogenen Invarianten, die aus der algebraischen Struktur abgeleitet sind, und modellbezogenen Regularitäten, die in autoregressiven Sprachmodellen beobachtet werden.

neural networks softmax machine learning NLP

RESEARCHarXiv CS.CL·4/7/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.CL·5/6/2026

How Language Models Process Negation

Diese Studie untersucht, wie große Sprachmodelle (LLMs) die Negation mechanistisch verarbeiten, und zeigt, dass selbst Open-Weight-Modelle interne Komponenten für die korrekte Negationsverarbeitung besitzen, obwohl sie oft falsche Antworten liefern. Ihre geringe Genauigkeit wird auf die Aufmerksamkeitsleistung späterer Schichten zurückgeführt, die einfache Abkürzungen fördert, und die Modelle nutzen sowohl die Aufmerksamkeit auf negierte Phrasen als auch die direkte Konstruktion negativer Phrasendarstellungen.

LLMs Mechanistic Interpretability attention mechanisms Natural Language Processing

DOCStatQuest (YouTube)·2/12/2025

StatQuest on DeepLearning.AI!!! Check out my short course on attention!

StatQuest hat einen kurzen Kurs über Aufmerksamkeitsmechanismen auf der DeepLearning.AI-Plattform veröffentlicht. Der Kurs zielt darauf ab, die Grundlagen und Anwendungen dieser wichtigen Technik der künstlichen Intelligenz zu vermitteln.

deep learning learning attention mechanisms

StatQuest on DeepLearning.AI!!! Check out my short course on attention!