← heapsort-ai

attention mechanisms

28 items

RESEARCHarXiv CS.LG·21/04/2026

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Cet article étudie l'alignement asynchrone dans l'apprentissage multimodal, où un flux primaire dense doit être fusionné avec un contexte externe sporadique, exigeant que les modèles raisonnent explicitement sur la fraîcheur et la confiance. Il propose CGCMA (Conditionally-Gated Cross-Modal Attention), un modèle qui sépare l'ancrage conditionné par le texte du contrôle de confiance sensible au décalage, testé sur les marchés de cryptomonnaies.

27
RESEARCHarXiv CS.AI·il y a 29j

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Cette recherche teste l'"Hypothèse de Confiance-Attention" dans les Modèles de Vision-Langage (VLMs), constatant que la structure de l'attention est un prédicteur quasi nul de la justesse. L'étude utilise un pipeline mécaniste unifié (VLM Reliability Probe) pour analyser la structure de l'attention, la dynamique de génération et la géométrie des états cachés dans trois familles de VLMs.

27
RESEARCHarXiv CS.CL·il y a 8j

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

Cet article présente AEyeDE, un cadre basé sur l'attention pour la détection de l'attribution humaine-IA qui utilise l'attention du modèle comme signal discriminatoire. La méthode surpasse systématiquement les méthodes de référence basées uniquement sur le texte et fait preuve de robustesse dans divers contextes de génération de texte, restant compétitive sur les bancs d'essai standard.

27
RESEARCHarXiv CS.AI·il y a 13j

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE est une nouvelle technique conçue pour améliorer la génération parallèle de grands modèles linguistiques (LLM) en permettant la coordination et la collaboration entre plusieurs séquences au moment du test. Ceci est réalisé grâce à un masque d'attention inter-séquence et une extension RoPE qui injecte des informations positionnelles, montrant des résultats prometteurs sur des tâches de raisonnement mathématique.

27
RESEARCHarXiv CS.LG·06/05/2026

On the Invariants of Softmax Attention

Cette recherche définit le "champ d'énergie" dans l'attention softmax, révélant des propriétés invariantes essentielles. Elle distingue les invariants au niveau du mécanisme, dérivés de la structure algébrique, des régularités au niveau du modèle observées dans les modèles de langage autorégressifs.

27
RESEARCHarXiv CS.CL·06/05/2026

How Language Models Process Negation

Cette étude examine comment les grands modèles de langage (LLM) traitent mécaniquement la négation, révélant que même les modèles open-source possèdent des composants internes pour un traitement correct de la négation, malgré leurs erreurs fréquentes. Leur faible précision est attribuée à une attention des couches tardives qui favorise des raccourcis simples, et les modèles mettent en œuvre à la fois l'attention aux phrases niées et la construction directe de représentations de phrases négatives.

27