← heapsort-ai

attention mechanisms

28 items

NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
RESEARCHarXiv CS.LG·4/21/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba ist ein neues einheitliches räumlich-zeitliches Prognoseframework, das effiziente Zustandsraumdynamiken mit auf Aufmerksamkeit basierendem Abhängigkeitslernen integriert, um Herausforderungen bei multivariaten Zeitreihen zu bewältigen. Es nutzt eine Mamba Variate-Channel Encoding Layer und eine Spatial Temporal Attention Layer, um sowohl globale zeitliche Abhängigkeiten als auch Inter-Variablen-Korrelationen zu erfassen.

33
RESEARCHarXiv CS.LG·vor 5T

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Diese Forschung untersucht systematisch Varianten der Query-, Key- und Value- (QKV) Aufmerksamkeitsformulierung in Transformatoren, einschließlich geteilter Key-Value-, Query-Key- und Einzelprojektionen. Experimente in synthetischen Aufgaben, Vision und Sprachmodellierung zeigen, dass diese alternativen Formulierungen gleich gut oder manchmal besser als Standard-QKV-Transformatoren abschneiden, wobei die Q-K=V-Teilung eine erhebliche KV-Cache-Reduzierung in der Sprachmodellierung bietet.

29
RESEARCHarXiv CS.CL·4/27/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Diese Forschung untersucht die Prompt-Sensitivität von LLMs durch den Vergleich von instruktionsbasierten und beispielbasierten Prompt-Stilen. Es wird festgestellt, dass LLMs trotz großer Leistungsvariationen gemeinsame zugrunde liegende Mechanismen nutzen, insbesondere „lexical task heads“, die die Aufgabe beschreiben und die Antwortgenerierung auslösen.

29
RESEARCHarXiv CS.LG·4/14/2026

The Diffusion-Attention Connection

Diese Forschung vereinheitlicht Transformatoren, Diffusionskarten und magnetische Laplacians und präsentiert sie als verschiedene Regime einer einzigen Markov-Geometrie, die aus Pre-Softmax-Query-Scores aufgebaut ist. Sie definiert eine QK-"Bidivergenz", um Attention und Diffusion zu verbinden und ihre Dynamik mittels Produkt von Experten und Schrödinger-Brücken zu organisieren.

28
RESEARCHarXiv CS.CL·4/7/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

28
RESEARCHarXiv CS.LG·4/23/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, ein 15 Milliarden Parameter großer Supernet, wurde veröffentlicht, der vier trainierte Mixer-Optionen pro Decoder-Schicht bietet, um mehrere Geschwindigkeits-/Qualitätseinstellungen aus einem einzigen Checkpoint zu ermöglichen. Dies führt zu einem 2.9x bis 10.7x höheren Decodierungsdurchsatz bei einer Qualitätserhaltung von 96% bis 77% und ermöglicht auch die spekulative Decodierung ohne ein separates Entwurfsmodell.

28
RESEARCHarXiv CS.AI·4/20/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE ist ein neues Framework, das es Large Language Models (LLMs) ermöglicht, Erkenntnisse über mehrere parallele Denkpfade hinweg zu koordinieren und auszutauschen, indem es Cross-Thread-Attention nutzt. Es verwendet eine synthetische Datenpipeline, um kollaborative Fehlerkorrektur zu lehren, was zu einer Verbesserung der Argumentationsgenauigkeit um über 7 Punkte führt.

27
RESEARCHarXiv CS.AI·5/7/2026

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor

Dieses Papier stellt ANDRE vor, einen neuartigen auf Aufmerksamkeit basierenden neuro-symbolischen differenzierbaren Regel-Extraktor (ILP) zur Lernung erststufiger Logikprogramme. Es optimiert einen kontinuierlichen Regelraum mit vollständig differenzierbaren, aufmerksamkeitsgesteuerten logischen Operatoren und bewältigt Skalierbarkeitsprobleme in rauschbehafteten und probabilistischen Umgebungen.

27
ARTICLEDEV.to AI·4/19/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Dieser Artikel beleuchtet die Grenzen von LSTMs beim Beibehalten des Kontexts, trotz ihrer verbesserten Gedächtnisfähigkeiten im Vergleich zu einfachen RNNs. Der Autor nutzt eine persönliche Erfahrung beim Englischlernen, um drei spezifische Probleme zu veranschaulichen, die LSTMs immer noch nicht lösen, und ebnet damit den Weg für die Diskussion von Aufmerksamkeitsmechanismen.

27
RESEARCHDEV.to AI·5/8/2026

Tiny weight edits improve LLM safety

Gezielte, geringfügige Gewichtsänderungen an spezifischen Aufmerksamkeitsköpfen in LLMs, wie durch die ASGuard-Methode gezeigt, können die Erfolgsraten von Jailbreaks drastisch senken. Dieser chirurgische Ansatz behebt Schwachstellen, wie Angriffe durch Zeitformwechsel, indem er die Aktivierungen in relevanten Aufmerksamkeitsköpfen dämpft und so die Sicherheit erheblich verbessert, ohne die Gesamtkompetenz des Modells zu beeinträchtigen.

27
RESEARCHarXiv CS.CL·4/27/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Diese Forschung untersucht systematisch die Platzierung von LoRA in hybriden Sprachmodellen, die Aufmerksamkeits- und rekursive Komponenten kombinieren. Es wird festgestellt, dass die Anpassung des Aufmerksamkeits-Pfades die vollständige Modelladaption konsistent übertrifft und dabei erheblich weniger trainierbare Parameter benötigt, wobei die Anpassung des rekurrenten Rückgrats je nach Hybridarchitektur drastisch unterschiedlich wirkt.

27
RESEARCHarXiv CS.LG·4/27/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost schlägt eine Optimierung für LLMs vor, indem es den Aufmerksamkeitsmechanismus basierend auf der Empfindlichkeit einzelner Transformator-Schichten selektiv modifiziert. Ziel ist es, die quadratische Komplexität der Softmax-Aufmerksamkeit, einen Hauptengpass für effiziente Inferenz, ohne signifikanten Qualitätsverlust des Modells zu reduzieren.

27
RESEARCHarXiv CS.LG·4/24/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Dieses Papier stellt Gist Sparse Attention (GSA) vor, eine end-to-end lernbare Methode zur Skalierung großer Sprachmodelle auf lange Kontexte ohne Architekturmodifikationen. GSA komprimiert den Kontext in 'Gist-Tokens' zur Zusammenfassung und stellt dann selektiv relevante Rohabschnitte für detaillierte Aufmerksamkeit wieder her, wodurch kompakte globale Repräsentationen mit gezieltem Zugriff auf feinkörnige Details kombiniert werden.

27