attention mechanisms

28 items

NEWS↑ trendingReddit r/LocalLLaMA·22/4/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI ha lanzado en código abierto FlashKDA, un kernel CUTLASS C++ para Kimi Delta Attention, logrando mejoras de rendimiento de hasta 2.22x sobre la línea base de Triton en benchmarks H20. Esta implementación acelera arquitecturas de atención lineal.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

Takeaways & discussion about the DeepSeek V4 architecture

Este artículo analiza las novedades arquitectónicas de DeepSeek V4, destacando su sistema de atención híbrida (CSA + HCA) y las Manifold-Constrained Hyper-Connections. También aborda el entrenamiento FP4 QAT a escala de frontera, diferenciándolo de modelos anteriores.

DeepSeek deep learning attention mechanisms quantization

RESEARCHarXiv CS.LG·20/4/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Este artículo analiza el cuello de botella de la sobrecarga de despacho que impide que la poda de tokens reduzca eficazmente la latencia en Vision Transformers (ViTs). Se presenta un nuevo kernel de atención Triton que reduce significativamente esta sobrecarga, logrando hasta 2.24x de rendimiento total para ViTs podados.

AI models deep learning Performance optimization attention mechanisms

RESEARCHarXiv CS.LG·21/4/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba es un nuevo marco unificado de pronóstico espacio-temporal que integra dinámicas eficientes de modelos de espacio de estados con aprendizaje de dependencias basado en atención para abordar desafíos de series temporales multivariadas. Emplea una Capa de Codificación de Canal Variado Mamba y una Capa de Atención Temporal Espacial para capturar tanto las dependencias temporales globales como las correlaciones entre variables.

forecasting machine learning attention mechanisms State Space Models

RESEARCHDEV.to AI·hace 3d

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Este trabajo presenta un método para la generación de subtítulos de imágenes, utilizando atención basada en regiones y factorización de escenas para mejorar la relevancia y precisión descriptiva. Su objetivo es alinear la percepción visual con la narración textual de manera más efectiva.

scene understanding deep learning computer vision attention mechanisms

RESEARCHarXiv CS.LG·hace 5d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.CL·27/4/2026

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Esta investigación explora la sensibilidad a los prompts en LLMs, comparando los estilos de instrucción y de ejemplo. Se encuentra que, a pesar de la variación en el rendimiento, los LLMs comparten mecanismos subyacentes comunes, como los "lexical task heads" que describen la tarea y activan la producción de respuestas.

model interpretability LLMs prompt engineering attention mechanisms

RESEARCHarXiv CS.LG·14/4/2026

The Diffusion-Attention Connection

Esta investigación unifica Transformers, mapas de difusión y Laplacianos magnéticos, mostrándolos como diferentes regímenes de una única geometría de Markov. El estudio define una "bidivergencia" QK para conectar atención y difusión, organizando sus dinámicas con producto de expertos y puentes de Schrödinger.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

RESEARCHarXiv CS.CL·7/4/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

neural network architecture Performance optimization attention mechanisms large language models

RESEARCHarXiv CS.AI·20/4/2026

LACE: Lattice Attention for Cross-thread Exploration

LACE es un nuevo marco que permite a los Grandes Modelos de Lenguaje (LLMs) coordinar y compartir conocimientos entre múltiples rutas de razonamiento paralelas mediante atención entre hilos. Utiliza un pipeline de datos sintéticos para enseñar la corrección de errores colaborativa, mejorando la precisión del razonamiento en más de 7 puntos.

synthetic data LLMs attention mechanisms AI Reasoning

RESEARCHarXiv CS.AI·7/5/2026

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor

Este artículo propone ANDRE, un nuevo marco de Programación Lógica Inductiva (ILP) neuro-simbólico diferenciable basado en atención, que aprende programas de lógica de primer orden. Optimiza un espacio de reglas continuo con operadores lógicos diferenciables y basados en atención, superando limitaciones de escalabilidad en entornos ruidosos y probabilísticos.

machine learning attention mechanisms Logic Programming Inductive Logic Programming

RESEARCHDEV.to AI·5/5/2026

Robust Invisible Video Watermarking with Attention

Esta investigación presenta un nuevo método robusto de marca de agua de video invisible que aprovecha los mecanismos de atención para mejorar la imperceptibilidad y la resiliencia contra ataques.

robustness video watermarking deep learning security

ARTICLEDEV.to AI·19/4/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Este artículo explora las limitaciones de las LSTMs para mantener el contexto, a pesar de su capacidad de memoria mejorada en comparación con las RNNs básicas. El autor utiliza una experiencia personal de aprendizaje de inglés para ilustrar los tres problemas específicos que las LSTMs aún no resuelven, sentando las bases para discutir los mecanismos de atención.

deep learning attention mechanisms natural language processing

RESEARCHDEV.to AI·8/5/2026

Tiny weight edits improve LLM safety

Pequeñas ediciones de peso dirigidas a cabezas de atención específicas en LLMs, como demuestra el método ASGuard, pueden reducir drásticamente las tasas de éxito de los jailbreaks. Este enfoque quirúrgico corrige vulnerabilidades, como los ataques de cambio de tiempo verbal, al amortiguar las activaciones en las cabezas de atención relevantes, mejorando significativamente la seguridad sin comprometer la competencia general del modelo.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·10/5/2026

Neural Language Correction with Character-Based Attention

Esta investigación introduce un enfoque novedoso para la corrección neural del lenguaje, utilizando mecanismos de atención basados en caracteres. El método busca mejorar la precisión y la robustez de la corrección automática de errores gramaticales y ortográficos en el texto.

neural networks deep learning attention mechanisms natural language processing

RESEARCHarXiv CS.CL·27/4/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Esta investigación estudia sistemáticamente la colocación de LoRA en modelos de lenguaje híbridos que combinan atención y componentes recurrentes. Se encuentra que adaptar la vía de atención supera consistentemente la adaptación del modelo completo con muchos menos parámetros, y el efecto de adaptar el núcleo recurrente varía drásticamente según la arquitectura híbrida (secuencial vs. paralela).

hybrid language models model adaptation attention mechanisms Recurrent Neural Networks

RESEARCHarXiv CS.LG·27/4/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propone una optimización para LLM modificando selectivamente el mecanismo de atención según la sensibilidad de las capas individuales del transformador. Esto busca reducir la complejidad cuadrática de la atención softmax, un cuello de botella importante para la inferencia eficiente, sin una degradación significativa de la calidad del modelo.

LLMs AI optimization attention mechanisms Transformers

RESEARCHarXiv CS.LG·24/4/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Este artículo presenta Gist Sparse Attention (GSA), un método de aprendizaje de extremo a extremo para escalar grandes modelos de lenguaje a contextos largos sin modificaciones arquitectónicas. GSA comprime el contexto en 'tokens de esencia' para resumir y luego restaura selectivamente fragmentos brutos relevantes para una atención detallada, combinando representaciones globales compactas con acceso específico y granular.

neural networks model efficiency attention mechanisms large language models