attention mechanisms

28 items

RESEARCHarXiv CS.LG·21/4/2026

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Este artículo estudia la alineación asíncrona en el aprendizaje multimodal, donde una corriente primaria densa debe fusionarse con contexto externo esporádico, requiriendo que los modelos razonen explícitamente sobre la frescura y la confianza. Propone CGCMA (Atención Transmodal Condicionalmente Gated), un modelo que separa la conexión a tierra condicionada por texto del control de confianza consciente del retraso, probado en mercados de criptomonedas.

multimodal AI machine learning attention mechanisms Time Series Analysis

RESEARCHarXiv CS.AI·hace 28d

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Esta investigación prueba la "Hipótesis de Atención-Confianza" en Modelos de Visión-Lenguaje (VLMs), descubriendo que la estructura de la atención es un predictor casi nulo de la corrección. El estudio utiliza una metodología mecanicista unificada (VLM Reliability Probe) para analizar la atención, la dinámica de generación y la geometría de los estados ocultos en tres familias de VLMs.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

RESEARCHarXiv CS.CL·hace 7d

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

Este artículo presenta AEyeDE, un marco basado en la atención para la detección de autoría humana-IA que utiliza la atención del modelo como señal discriminativa. El método supera consistentemente las líneas base de solo texto y muestra robustez en diversas configuraciones de generación de texto, siendo competitivo en los puntos de referencia estándar.

AI detection machine learning NLP attention mechanisms

RESEARCHarXiv CS.AI·hace 12d

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE es una técnica novedosa diseñada para mejorar la generación paralela de Modelos de Lenguaje Grandes (LLMs) al permitir la coordinación y colaboración entre múltiples secuencias en tiempo de prueba. Esto se logra mediante una máscara de atención inter-secuencia y una extensión RoPE que inyecta información posicional, mostrando resultados prometedores en tareas de razonamiento matemático.

mathematical reasoning attention mechanisms Positional Encoding Parallel Processing

RESEARCHarXiv CS.LG·6/5/2026

On the Invariants of Softmax Attention

Esta investigación define el "campo de energía" en la atención softmax, revelando propiedades invariantes esenciales. Diferencia los invariantes a nivel de mecanismo, derivados de la estructura algebraica, de las regularidades a nivel de modelo observadas en modelos de lenguaje autorregresivos.

neural networks softmax machine learning NLP

RESEARCHarXiv CS.CL·7/4/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.CL·6/5/2026

How Language Models Process Negation

Este estudio investiga cómo los Grandes Modelos de Lenguaje (LLMs) procesan mecanísticamente la negación, revelando que incluso los modelos de código abierto poseen componentes internos para el procesamiento correcto de la negación a pesar de a menudo dar respuestas incorrectas. Su baja precisión se atribuye a la atención de capas tardías que promueve atajos simples, y los modelos implementan tanto la atención a frases negadas como la construcción directa de representaciones de frases negativas.

LLMs Mechanistic Interpretability attention mechanisms Natural Language Processing

DOCStatQuest (YouTube)·12/2/2025

StatQuest on DeepLearning.AI!!! Check out my short course on attention!

StatQuest ha lanzado un curso corto sobre mecanismos de atención en la plataforma DeepLearning.AI. El curso busca enseñar los fundamentos y aplicaciones de esta importante técnica de inteligencia artificial.

deep learning learning attention mechanisms

StatQuest on DeepLearning.AI!!! Check out my short course on attention!