← heapsort-ai

attention mechanisms

28 items

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
RESEARCHarXiv CS.LG·21/4/2026

UniMamba: A Unified Spatial-Temporal Modeling Framework with State-Space and Attention Integration

UniMamba es un nuevo marco unificado de pronóstico espacio-temporal que integra dinámicas eficientes de modelos de espacio de estados con aprendizaje de dependencias basado en atención para abordar desafíos de series temporales multivariadas. Emplea una Capa de Codificación de Canal Variado Mamba y una Capa de Atención Temporal Espacial para capturar tanto las dependencias temporales globales como las correlaciones entre variables.

33
RESEARCHarXiv CS.LG·hace 5d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

29
RESEARCHarXiv CS.CL·7/4/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

28
RESEARCHarXiv CS.LG·23/4/2026

Super Apriel: One Checkpoint, Many Speeds

Se ha lanzado Super Apriel, una superred de 15 mil millones de parámetros donde cada capa del decodificador ofrece cuatro opciones de mezclador entrenadas, permitiendo múltiples configuraciones de velocidad/calidad desde un único punto de control. Esto posibilita ganancias de rendimiento de decodificación de 2.9x a 10.7x con una retención de calidad del 96% al 77%, y también la decodificación especulativa sin un modelo de borrador separado.

28
RESEARCHarXiv CS.AI·7/5/2026

ANDRE: An Attention-based Neuro-symbolic Differentiable Rule Extractor

Este artículo propone ANDRE, un nuevo marco de Programación Lógica Inductiva (ILP) neuro-simbólico diferenciable basado en atención, que aprende programas de lógica de primer orden. Optimiza un espacio de reglas continuo con operadores lógicos diferenciables y basados en atención, superando limitaciones de escalabilidad en entornos ruidosos y probabilísticos.

27
ARTICLEDEV.to AI·19/4/2026

Attention Mechanisms: Stop Compressing, Start Looking Back

Este artículo explora las limitaciones de las LSTMs para mantener el contexto, a pesar de su capacidad de memoria mejorada en comparación con las RNNs básicas. El autor utiliza una experiencia personal de aprendizaje de inglés para ilustrar los tres problemas específicos que las LSTMs aún no resuelven, sentando las bases para discutir los mecanismos de atención.

27
RESEARCHDEV.to AI·8/5/2026

Tiny weight edits improve LLM safety

Pequeñas ediciones de peso dirigidas a cabezas de atención específicas en LLMs, como demuestra el método ASGuard, pueden reducir drásticamente las tasas de éxito de los jailbreaks. Este enfoque quirúrgico corrige vulnerabilidades, como los ataques de cambio de tiempo verbal, al amortiguar las activaciones en las cabezas de atención relevantes, mejorando significativamente la seguridad sin comprometer la competencia general del modelo.

27
RESEARCHarXiv CS.CL·27/4/2026

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Esta investigación estudia sistemáticamente la colocación de LoRA en modelos de lenguaje híbridos que combinan atención y componentes recurrentes. Se encuentra que adaptar la vía de atención supera consistentemente la adaptación del modelo completo con muchos menos parámetros, y el efecto de adaptar el núcleo recurrente varía drásticamente según la arquitectura híbrida (secuencial vs. paralela).

27
RESEARCHarXiv CS.LG·27/4/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propone una optimización para LLM modificando selectivamente el mecanismo de atención según la sensibilidad de las capas individuales del transformador. Esto busca reducir la complejidad cuadrática de la atención softmax, un cuello de botella importante para la inferencia eficiente, sin una degradación significativa de la calidad del modelo.

27
RESEARCHarXiv CS.LG·24/4/2026

Forget, Then Recall: Learnable Compression and Selective Unfolding via Gist Sparse Attention

Este artículo presenta Gist Sparse Attention (GSA), un método de aprendizaje de extremo a extremo para escalar grandes modelos de lenguaje a contextos largos sin modificaciones arquitectónicas. GSA comprime el contexto en 'tokens de esencia' para resumir y luego restaura selectivamente fragmentos brutos relevantes para una atención detallada, combinando representaciones globales compactas con acceso específico y granular.

27