attention mechanisms

28 items

RESEARCHarXiv CS.LG·21/04/2026

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Cet article étudie l'alignement asynchrone dans l'apprentissage multimodal, où un flux primaire dense doit être fusionné avec un contexte externe sporadique, exigeant que les modèles raisonnent explicitement sur la fraîcheur et la confiance. Il propose CGCMA (Conditionally-Gated Cross-Modal Attention), un modèle qui sépare l'ancrage conditionné par le texte du contrôle de confiance sensible au décalage, testé sur les marchés de cryptomonnaies.

multimodal AI machine learning attention mechanisms Time Series Analysis

RESEARCHarXiv CS.AI·il y a 29j

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Cette recherche teste l'"Hypothèse de Confiance-Attention" dans les Modèles de Vision-Langage (VLMs), constatant que la structure de l'attention est un prédicteur quasi nul de la justesse. L'étude utilise un pipeline mécaniste unifié (VLM Reliability Probe) pour analyser la structure de l'attention, la dynamique de génération et la géométrie des états cachés dans trois familles de VLMs.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

RESEARCHarXiv CS.CL·il y a 8j

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

Cet article présente AEyeDE, un cadre basé sur l'attention pour la détection de l'attribution humaine-IA qui utilise l'attention du modèle comme signal discriminatoire. La méthode surpasse systématiquement les méthodes de référence basées uniquement sur le texte et fait preuve de robustesse dans divers contextes de génération de texte, restant compétitive sur les bancs d'essai standard.

AI detection machine learning NLP attention mechanisms

RESEARCHarXiv CS.AI·il y a 13j

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE est une nouvelle technique conçue pour améliorer la génération parallèle de grands modèles linguistiques (LLM) en permettant la coordination et la collaboration entre plusieurs séquences au moment du test. Ceci est réalisé grâce à un masque d'attention inter-séquence et une extension RoPE qui injecte des informations positionnelles, montrant des résultats prometteurs sur des tâches de raisonnement mathématique.

mathematical reasoning attention mechanisms Positional Encoding Parallel Processing

RESEARCHarXiv CS.LG·06/05/2026

On the Invariants of Softmax Attention

Cette recherche définit le "champ d'énergie" dans l'attention softmax, révélant des propriétés invariantes essentielles. Elle distingue les invariants au niveau du mécanisme, dérivés de la structure algébrique, des régularités au niveau du modèle observées dans les modèles de langage autorégressifs.

neural networks softmax machine learning NLP

RESEARCHarXiv CS.CL·07/04/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.CL·06/05/2026

How Language Models Process Negation

Cette étude examine comment les grands modèles de langage (LLM) traitent mécaniquement la négation, révélant que même les modèles open-source possèdent des composants internes pour un traitement correct de la négation, malgré leurs erreurs fréquentes. Leur faible précision est attribuée à une attention des couches tardives qui favorise des raccourcis simples, et les modèles mettent en œuvre à la fois l'attention aux phrases niées et la construction directe de représentations de phrases négatives.

LLMs Mechanistic Interpretability attention mechanisms Natural Language Processing

DOCStatQuest (YouTube)·12/02/2025

StatQuest on DeepLearning.AI!!! Check out my short course on attention!

StatQuest a lancé un cours court sur les mécanismes d'attention sur la plateforme DeepLearning.AI. Le cours vise à enseigner les fondamentaux et les applications de cette technique importante d'intelligence artificielle.

deep learning learning attention mechanisms

StatQuest on DeepLearning.AI!!! Check out my short course on attention!