← heapsort-ai

attention mechanisms

28 items

RESEARCHarXiv CS.LG·21/4/2026

CGCMA: Conditionally-Gated Cross-Modal Attention for Event-Conditioned Asynchronous Fusion

Este artículo estudia la alineación asíncrona en el aprendizaje multimodal, donde una corriente primaria densa debe fusionarse con contexto externo esporádico, requiriendo que los modelos razonen explícitamente sobre la frescura y la confianza. Propone CGCMA (Atención Transmodal Condicionalmente Gated), un modelo que separa la conexión a tierra condicionada por texto del control de confianza consciente del retraso, probado en mercados de criptomonedas.

27
RESEARCHarXiv CS.AI·hace 28d

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

Esta investigación prueba la "Hipótesis de Atención-Confianza" en Modelos de Visión-Lenguaje (VLMs), descubriendo que la estructura de la atención es un predictor casi nulo de la corrección. El estudio utiliza una metodología mecanicista unificada (VLM Reliability Probe) para analizar la atención, la dinámica de generación y la geometría de los estados ocultos en tres familias de VLMs.

27
RESEARCHarXiv CS.CL·hace 7d

AEyeDE: An Attention-Based Attribution Framework for AI-Generated Text Detection

Este artículo presenta AEyeDE, un marco basado en la atención para la detección de autoría humana-IA que utiliza la atención del modelo como señal discriminativa. El método supera consistentemente las líneas base de solo texto y muestra robustez en diversas configuraciones de generación de texto, siendo competitivo en los puntos de referencia estándar.

27
RESEARCHarXiv CS.AI·hace 12d

LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation

LaneRoPE es una técnica novedosa diseñada para mejorar la generación paralela de Modelos de Lenguaje Grandes (LLMs) al permitir la coordinación y colaboración entre múltiples secuencias en tiempo de prueba. Esto se logra mediante una máscara de atención inter-secuencia y una extensión RoPE que inyecta información posicional, mostrando resultados prometedores en tareas de razonamiento matemático.

27
RESEARCHarXiv CS.LG·6/5/2026

On the Invariants of Softmax Attention

Esta investigación define el "campo de energía" en la atención softmax, revelando propiedades invariantes esenciales. Diferencia los invariantes a nivel de mecanismo, derivados de la estructura algebraica, de las regularidades a nivel de modelo observadas en modelos de lenguaje autorregresivos.

27
RESEARCHarXiv CS.CL·6/5/2026

How Language Models Process Negation

Este estudio investiga cómo los Grandes Modelos de Lenguaje (LLMs) procesan mecanísticamente la negación, revelando que incluso los modelos de código abierto poseen componentes internos para el procesamiento correcto de la negación a pesar de a menudo dar respuestas incorrectas. Su baja precisión se atribuye a la atención de capas tardías que promueve atajos simples, y los modelos implementan tanto la atención a frases negadas como la construcción directa de representaciones de frases negativas.

27