attention mechanisms

28 items

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Elastic Attention Cores for Scalable Vision Transformers [R]

Cet article propose les Cœurs d'Attention Élastiques comme un nouveau bloc de construction pour les Vision Transformers évolutifs, répondant au coût élevé de l'auto-attention dense. L'approche utilise une structure d'attention creuse par blocs de type cœur-périphérie et un dropout imbriqué pour des ajustements élastiques du coût d'inférence, atteignant une précision compétitive.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

Takeaways & discussion about the DeepSeek V4 architecture

Cet article discute des nouveautés architecturales de DeepSeek V4, soulignant son système d'attention hybride (CSA + HCA) et les Manifold-Constrained Hyper-Connections. Il aborde également l'entraînement FP4 QAT à l'échelle de la frontière, le différenciant des modèles précédents.

DeepSeek deep learning attention mechanisms quantization

RESEARCHarXiv CS.LG·20/04/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Cet article examine le goulot d'étranglement lié à la surcharge de dispatch qui empêche l'élagage de tokens de réduire efficacement la latence dans les Vision Transformers (ViTs). Il propose un nouveau noyau d'attention Triton léger qui abaisse ce seuil de dispatch, améliorant ainsi le débit global jusqu'à 2.24x pour les ViTs élagués.

AI models deep learning Performance optimization attention mechanisms

RESEARCHarXiv CS.LG·21/04/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba est un nouveau cadre unifié de prévision spatio-temporelle qui intègre des dynamiques efficaces de modèles d'état avec l'apprentissage des dépendances basé sur l'attention pour relever les défis des séries temporelles multivariées. Il utilise une couche d'encodage de canal varié Mamba et une couche d'attention spatio-temporelle pour capturer à la fois les dépendances temporelles globales et les corrélations inter-variables.

forecasting machine learning attention mechanisms State Space Models

RESEARCHDEV.to AI·il y a 3j

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Ce travail présente une méthode de génération de légendes d'images, utilisant l'attention basée sur les régions et la factorisation de scène pour améliorer la pertinence et la précision descriptive. Il vise à aligner plus efficacement la perception visuelle avec la narration textuelle.

scene understanding deep learning computer vision attention mechanisms

RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Cette recherche examine la sensibilité des LLM aux prompts en comparant les styles d'instructions et d'exemples. Elle révèle que, malgré de grandes variations de performance, les LLM partagent des mécanismes sous-jacents communs, notamment des "lexical task heads" qui décrivent la tâche et déclenchent la production de réponses.

model interpretability LLMs prompt engineering attention mechanisms

RESEARCHarXiv CS.LG·14/04/2026

The Diffusion-Attention Connection

Cette recherche unifie les Transformers, les cartes de diffusion et les Laplaciens magnétiques, les présentant comme différents régimes d'une géométrie de Markov unique. Elle définit une "bidivergence" QK pour relier l'attention et la diffusion, et organise leurs dynamiques avec le produit d'experts et les ponts de Schrödinger.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHarXiv CS.AI·20/04/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE est un nouveau cadre qui permet aux Grands Modèles de Langage (LLMs) de coordonner et de partager des informations entre plusieurs chemins de raisonnement parallèles grâce à l'attention inter-threads. Il utilise un pipeline de données synthétiques pour enseigner la correction d'erreurs collaborative, améliorant la précision du raisonnement de plus de 7 points.

synthetic data LLMs attention mechanisms AI Reasoning

RESEARCHarXiv CS.AI·07/05/2026

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor

Cet article présente ANDRE, un nouveau cadre de Programmation Logique Inductive (ILP) neuro-symbolique différentiable basé sur l'attention, qui apprend des programmes logiques de premier ordre. Il optimise un espace de règles continu avec des opérateurs logiques entièrement différentiables et basés sur l'attention, résolvant les défis d'échelle dans des contextes bruyants et probabilistes.

machine learning attention mechanisms Logic Programming Inductive Logic Programming

RESEARCHDEV.to AI·05/05/2026

Robust Invisible Video Watermarking with Attention

Cette recherche présente une nouvelle méthode robuste de tatouage vidéo invisible qui utilise des mécanismes d'attention pour améliorer l'imperceptibilité et la résilience aux attaques.

robustness video watermarking deep learning security

ARTICLEDEV.to AI·19/04/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Cet article explore les limites des LSTMs dans le maintien du contexte, malgré leurs capacités de mémoire améliorées par rapport aux RNNs classiques. L'auteur utilise son expérience personnelle d'apprentissage de l'anglais pour illustrer les trois problèmes spécifiques que les LSTMs ne résolvent toujours pas, préparant le terrain pour la discussion des mécanismes d'attention.

deep learning attention mechanisms natural language processing

RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

De minuscules modifications ciblées des poids dans des têtes d'attention spécifiques des LLMs, comme le montre la méthode ASGuard, peuvent réduire drastiquement les taux de succès des jailbreaks. Cette approche chirurgicale corrige les vulnérabilités, telles que les attaques de changement de temps, en atténuant les activations dans les têtes d'attention pertinentes, améliorant considérablement la sécurité tout en maintenant la compétence globale du modèle.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·10/05/2026

Neural Language Correction with Character-Based Attention

Cette recherche introduit une approche novatrice pour la correction neuronale du langage, en utilisant des mécanismes d'attention basés sur les caractères. La méthode vise à améliorer la précision et la robustesse de la correction automatique des erreurs grammaticales et orthographiques dans le texte.

neural networks deep learning attention mechanisms natural language processing

RESEARCHarXiv CS.CL·27/04/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Cette recherche étudie systématiquement le placement de LoRA dans les modèles de langage hybrides combinant des composants d'attention et récurrents. Elle révèle que l'adaptation du chemin d'attention surpasse constamment l'adaptation du modèle complet avec moins de paramètres, tandis que l'effet de l'adaptation du composant récurrent varie considérablement selon l'architecture hybride.

hybrid language models model adaptation attention mechanisms Recurrent Neural Networks

RESEARCHarXiv CS.LG·27/04/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propose une optimisation pour les LLM en modifiant sélectivement le mécanisme d'attention en fonction de la sensibilité des couches individuelles du transformateur. Cela vise à réduire la complexité quadratique de l'attention softmax, un goulot d'étranglement majeur pour l'inférence efficace, sans dégradation significative de la qualité du modèle.

LLMs AI optimization attention mechanisms Transformers

RESEARCHarXiv CS.LG·24/04/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Cet article introduit Gist Sparse Attention (GSA), une méthode entièrement apprenable pour adapter les grands modèles de langage à des contextes longs sans modification architecturale. Le GSA compresse le contexte en 'tokens de substance' pour un résumé, puis restaure sélectivement les fragments bruts pertinents pour une attention détaillée, combinant des représentations globales compactes avec un accès ciblé aux détails.

neural networks model efficiency attention mechanisms large language models