← heapsort-ai

attention mechanisms

28 items

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
RESEARCH↑ trendingReddit r/MachineLearning·il y a 27j

Elastic Attention Cores for Scalable Vision Transformers [R]

Cet article propose les Cœurs d'Attention Élastiques comme un nouveau bloc de construction pour les Vision Transformers évolutifs, répondant au coût élevé de l'auto-attention dense. L'approche utilise une structure d'attention creuse par blocs de type cœur-périphérie et un dropout imbriqué pour des ajustements élastiques du coût d'inférence, atteignant une précision compétitive.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
RESEARCHarXiv CS.LG·20/04/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Cet article examine le goulot d'étranglement lié à la surcharge de dispatch qui empêche l'élagage de tokens de réduire efficacement la latence dans les Vision Transformers (ViTs). Il propose un nouveau noyau d'attention Triton léger qui abaisse ce seuil de dispatch, améliorant ainsi le débit global jusqu'à 2.24x pour les ViTs élagués.

35
RESEARCHarXiv CS.LG·21/04/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba est un nouveau cadre unifié de prévision spatio-temporelle qui intègre des dynamiques efficaces de modèles d'état avec l'apprentissage des dépendances basé sur l'attention pour relever les défis des séries temporelles multivariées. Il utilise une couche d'encodage de canal varié Mamba et une couche d'attention spatio-temporelle pour capturer à la fois les dépendances temporelles globales et les corrélations inter-variables.

33
RESEARCHarXiv CS.LG·il y a 5j

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Cette recherche évalue systématiquement des variantes de la formulation d'attention QKV (Query, Key, Value) dans les Transformers, incluant le partage des projections clé-valeur, query-clé et unique. Des expériences sur des tâches synthétiques, de vision et de modélisation linguistique montrent que ces formulations alternatives sont aussi performantes, voire parfois meilleures, que les Transformers QKV standards, avec un partage Q-K=V réduisant significativement le cache KV en modélisation linguistique.

29
RESEARCHarXiv CS.CL·27/04/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Cette recherche examine la sensibilité des LLM aux prompts en comparant les styles d'instructions et d'exemples. Elle révèle que, malgré de grandes variations de performance, les LLM partagent des mécanismes sous-jacents communs, notamment des "lexical task heads" qui décrivent la tâche et déclenchent la production de réponses.

29
RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

28
RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

28
RESEARCHarXiv CS.AI·20/04/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE est un nouveau cadre qui permet aux Grands Modèles de Langage (LLMs) de coordonner et de partager des informations entre plusieurs chemins de raisonnement parallèles grâce à l'attention inter-threads. Il utilise un pipeline de données synthétiques pour enseigner la correction d'erreurs collaborative, améliorant la précision du raisonnement de plus de 7 points.

27
RESEARCHarXiv CS.AI·07/05/2026

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor

Cet article présente ANDRE, un nouveau cadre de Programmation Logique Inductive (ILP) neuro-symbolique différentiable basé sur l'attention, qui apprend des programmes logiques de premier ordre. Il optimise un espace de règles continu avec des opérateurs logiques entièrement différentiables et basés sur l'attention, résolvant les défis d'échelle dans des contextes bruyants et probabilistes.

27
ARTICLEDEV.to AI·19/04/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Cet article explore les limites des LSTMs dans le maintien du contexte, malgré leurs capacités de mémoire améliorées par rapport aux RNNs classiques. L'auteur utilise son expérience personnelle d'apprentissage de l'anglais pour illustrer les trois problèmes spécifiques que les LSTMs ne résolvent toujours pas, préparant le terrain pour la discussion des mécanismes d'attention.

27
RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

De minuscules modifications ciblées des poids dans des têtes d'attention spécifiques des LLMs, comme le montre la méthode ASGuard, peuvent réduire drastiquement les taux de succès des jailbreaks. Cette approche chirurgicale corrige les vulnérabilités, telles que les attaques de changement de temps, en atténuant les activations dans les têtes d'attention pertinentes, améliorant considérablement la sécurité tout en maintenant la compétence globale du modèle.

27
RESEARCHarXiv CS.CL·27/04/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Cette recherche étudie systématiquement le placement de LoRA dans les modèles de langage hybrides combinant des composants d'attention et récurrents. Elle révèle que l'adaptation du chemin d'attention surpasse constamment l'adaptation du modèle complet avec moins de paramètres, tandis que l'effet de l'adaptation du composant récurrent varie considérablement selon l'architecture hybride.

27
RESEARCHarXiv CS.LG·27/04/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propose une optimisation pour les LLM en modifiant sélectivement le mécanisme d'attention en fonction de la sensibilité des couches individuelles du transformateur. Cela vise à réduire la complexité quadratique de l'attention softmax, un goulot d'étranglement majeur pour l'inférence efficace, sans dégradation significative de la qualité du modèle.

27
RESEARCHarXiv CS.LG·24/04/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Cet article introduit Gist Sparse Attention (GSA), une méthode entièrement apprenable pour adapter les grands modèles de langage à des contextes longs sans modification architecturale. Le GSA compresse le contexte en 'tokens de substance' pour un résumé, puis restaure sélectivement les fragments bruts pertinents pour une attention détaillée, combinant des représentations globales compactes avec un accès ciblé aux détails.

27