attention mechanisms

28 items

NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·4/24/2026

Takeaways & discussion about the DeepSeek V4 architecture

Dieser Artikel behandelt die architektonischen Neuerungen von DeepSeek V4, wobei sein hybrides Aufmerksamkeits-System (CSA + HCA) und die Manifold-Constrained Hyper-Connections hervorgehoben werden. Er bespricht auch das FP4 QAT-Training im Grenzbereich und unterscheidet es von früheren Modellen.

DeepSeek deep learning attention mechanisms quantization

RESEARCHarXiv CS.LG·4/20/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Diese Arbeit untersucht den Dispatch-Overhead als Engpass, der verhindert, dass Token-Pruning die Latenz in Vision Transformers (ViTs) vollständig reduziert. Es wird ein leichter Triton-Aufmerksamkeitskernel vorgestellt, der diesen Overhead erheblich senkt und den End-to-End-Durchsatz für beschnittene ViTs um bis zu 2,24x steigert.

AI models deep learning Performance optimization attention mechanisms

RESEARCHarXiv CS.LG·4/21/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba ist ein neues einheitliches räumlich-zeitliches Prognoseframework, das effiziente Zustandsraumdynamiken mit auf Aufmerksamkeit basierendem Abhängigkeitslernen integriert, um Herausforderungen bei multivariaten Zeitreihen zu bewältigen. Es nutzt eine Mamba Variate-Channel Encoding Layer und eine Spatial Temporal Attention Layer, um sowohl globale zeitliche Abhängigkeiten als auch Inter-Variablen-Korrelationen zu erfassen.

forecasting machine learning attention mechanisms State Space Models

RESEARCHDEV.to AI·vor 3T

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Diese Arbeit stellt eine Methode zur Bildunterschriftengenerierung vor, die regionenbasierte Aufmerksamkeit und Szenenfaktorisierung nutzt, um die beschreibende Relevanz und Genauigkeit zu verbessern. Ziel ist es, die visuelle Wahrnehmung effektiver mit der textlichen Erzählung abzugleichen.

scene understanding deep learning computer vision attention mechanisms

RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.CL·4/27/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Diese Forschung untersucht die Prompt-Sensitivität von LLMs durch den Vergleich von instruktionsbasierten und beispielbasierten Prompt-Stilen. Es wird festgestellt, dass LLMs trotz großer Leistungsvariationen gemeinsame zugrunde liegende Mechanismen nutzen, insbesondere „lexical task heads“, die die Aufgabe beschreiben und die Antwortgenerierung auslösen.

model interpretability LLMs prompt engineering attention mechanisms

RESEARCHarXiv CS.LG·4/14/2026

The Diffusion-Attention Connection

Diese Forschung vereinheitlicht Transformatoren, Diffusionskarten und magnetische Laplacians und präsentiert sie als verschiedene Regime einer einzigen Markov-Geometrie, die aus Pre-Softmax-Query-Scores aufgebaut ist. Sie definiert eine QK-"Bidivergenz", um Attention und Diffusion zu verbinden und ihre Dynamik mittels Produkt von Experten und Schrödinger-Brücken zu organisieren.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

RESEARCHarXiv CS.CL·4/7/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

RESEARCHarXiv CS.LG·4/23/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, ein 15 Milliarden Parameter großer Supernet, wurde veröffentlicht, der vier trainierte Mixer-Optionen pro Decoder-Schicht bietet, um mehrere Geschwindigkeits-/Qualitätseinstellungen aus einem einzigen Checkpoint zu ermöglichen. Dies führt zu einem 2.9x bis 10.7x höheren Decodierungsdurchsatz bei einer Qualitätserhaltung von 96% bis 77% und ermöglicht auch die spekulative Decodierung ohne ein separates Entwurfsmodell.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

synthetic data LLMs attention mechanisms AI Reasoning

RESEARCHarXiv CS.AI·5/7/2026

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor

Dieses Papier stellt ANDRE vor, einen neuartigen auf Aufmerksamkeit basierenden neuro-symbolischen differenzierbaren Regel-Extraktor (ILP) zur Lernung erststufiger Logikprogramme. Es optimiert einen kontinuierlichen Regelraum mit vollständig differenzierbaren, aufmerksamkeitsgesteuerten logischen Operatoren und bewältigt Skalierbarkeitsprobleme in rauschbehafteten und probabilistischen Umgebungen.

machine learning attention mechanisms Logic Programming Inductive Logic Programming

RESEARCHDEV.to AI·5/5/2026

Robust Invisible Video Watermarking with Attention

Diese Forschung stellt eine neuartige robuste unsichtbare Videowasserzeichenmethode vor, die Aufmerksamkeitsmechanismen nutzt, um die Unsichtbarkeit und Widerstandsfähigkeit gegenüber Angriffen zu verbessern.

robustness video watermarking deep learning security

ARTICLEDEV.to AI·4/19/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Dieser Artikel beleuchtet die Grenzen von LSTMs beim Beibehalten des Kontexts, trotz ihrer verbesserten Gedächtnisfähigkeiten im Vergleich zu einfachen RNNs. Der Autor nutzt eine persönliche Erfahrung beim Englischlernen, um drei spezifische Probleme zu veranschaulichen, die LSTMs immer noch nicht lösen, und ebnet damit den Weg für die Diskussion von Aufmerksamkeitsmechanismen.

deep learning attention mechanisms natural language processing

RESEARCHDEV.to AI·5/8/2026

Tiny weight edits improve LLM safety

Gezielte, geringfügige Gewichtsänderungen an spezifischen Aufmerksamkeitsköpfen in LLMs, wie durch die ASGuard-Methode gezeigt, können die Erfolgsraten von Jailbreaks drastisch senken. Dieser chirurgische Ansatz behebt Schwachstellen, wie Angriffe durch Zeitformwechsel, indem er die Aktivierungen in relevanten Aufmerksamkeitsköpfen dämpft und so die Sicherheit erheblich verbessert, ohne die Gesamtkompetenz des Modells zu beeinträchtigen.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·5/10/2026

Neural Language Correction with Character-Based Attention

Diese Forschung stellt einen neuartigen Ansatz zur neuronalen Sprachkorrektur vor, der auf zeichenbasierten Aufmerksamkeitsmechanismen basiert. Die Methode zielt darauf ab, die Genauigkeit und Robustheit der automatischen Korrektur grammatischer und Rechtschreibfehler in Texten zu verbessern.

neural networks deep learning attention mechanisms natural language processing

RESEARCHarXiv CS.CL·4/27/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Diese Forschung untersucht systematisch die Platzierung von LoRA in hybriden Sprachmodellen, die Aufmerksamkeits- und rekursive Komponenten kombinieren. Es wird festgestellt, dass die Anpassung des Aufmerksamkeits-Pfades die vollständige Modelladaption konsistent übertrifft und dabei erheblich weniger trainierbare Parameter benötigt, wobei die Anpassung des rekurrenten Rückgrats je nach Hybridarchitektur drastisch unterschiedlich wirkt.

hybrid language models model adaptation attention mechanisms Recurrent Neural Networks

RESEARCHarXiv CS.LG·4/27/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost schlägt eine Optimierung für LLMs vor, indem es den Aufmerksamkeitsmechanismus basierend auf der Empfindlichkeit einzelner Transformator-Schichten selektiv modifiziert. Ziel ist es, die quadratische Komplexität der Softmax-Aufmerksamkeit, einen Hauptengpass für effiziente Inferenz, ohne signifikanten Qualitätsverlust des Modells zu reduzieren.

LLMs AI optimization attention mechanisms Transformers

RESEARCHarXiv CS.LG·4/24/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Dieses Papier stellt Gist Sparse Attention (GSA) vor, eine end-to-end lernbare Methode zur Skalierung großer Sprachmodelle auf lange Kontexte ohne Architekturmodifikationen. GSA komprimiert den Kontext in 'Gist-Tokens' zur Zusammenfassung und stellt dann selektiv relevante Rohabschnitte für detaillierte Aufmerksamkeit wieder her, wodurch kompakte globale Repräsentationen mit gezieltem Zugriff auf feinkörnige Details kombiniert werden.

neural networks model efficiency attention mechanisms large language models