← heapsort-ai

Transformers

57 items

RESEARCHarXiv CS.LG·6/4/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.LG·hace 8d

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer es un Transformer híbrido multirrama propuesto para superar los desafíos de alta dimensionalidad y patrones complejos en la detección acústica distribuida (DAS). Integra características estadísticas compactas de múltiples dominios, reduciendo significativamente el tamaño de los datos y mejorando la clasificación de eventos.

28
RESEARCHarXiv CS.LG·20/4/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta investigación revela que el caché KV en la inferencia autorregresiva de transformadores, bajo precisión FP16 estándar, provoca una divergencia sistemática en las secuencias de tokens decodificadas debido a diferentes órdenes de acumulación de punto flotante. Se observó una tasa de divergencia del 100% en modelos como LLaMA-2-7B y Mistral-7B, con el caché-ON a menudo resultando en mayor precisión.

27
DOCDEV.to AI·hace 20d

92. BERT: The Model That Reads in Both Directions

BERT se diferencia de GPT por su capacidad de lectura bidireccional, prediciendo palabras enmascaradas en lugar de secuenciales. Esta comprensión contextual completa lo convirtió en dominante en los benchmarks de PNL y una piedra angular para las tareas de comprensión. El contenido detalla los mecanismos de preentrenamiento y las técnicas de ajuste fino de BERT.

27
RESEARCHDEV.to AI·27/4/2026

An Attention Free Transformer

Este contenido introduce el concepto de un Transformer Libre de Atención, un nuevo diseño arquitectónico que busca replicar las capacidades de los Transformers tradicionales sin el mecanismo de autoatención. Probablemente explora mecanismos alternativos para el procesamiento de información contextual en tareas de secuencia a secuencia.

27
RESEARCHarXiv CS.LG·27/4/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

27
RESEARCHarXiv CS.LG·16/4/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta investigación estudia el fenómeno del 'grokking' en transformadores, hallando que el largo retraso en la generalización en modelos aritméticos proviene de un cuello de botella en el decodificador. El codificador adquiere conocimiento estructural relevante tempranamente, pero el decodificador lucha por acceder a él, una hipótesis respaldada por intervenciones causales como el trasplante de codificadores.

27
RESEARCHarXiv CS.LG·27/4/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propone una optimización para LLM modificando selectivamente el mecanismo de atención según la sensibilidad de las capas individuales del transformador. Esto busca reducir la complejidad cuadrática de la atención softmax, un cuello de botella importante para la inferencia eficiente, sin una degradación significativa de la calidad del modelo.

27
RESEARCHarXiv CS.LG·20/4/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artículo de investigación descubre transiciones de fase espectrales en los espacios de activación ocultos de los grandes modelos de lenguaje durante el razonamiento frente a la recuperación de hechos. Un análisis espectral sistemático en 11 modelos y 5 familias de arquitectura identifica siete fenómenos centrales, incluyendo la compresión espectral de razonamiento y la inversión espectral por ajuste de instrucción.

27
RESEARCHarXiv CS.LG·hace 18d

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

El Temporal Contrastive Transformer (TCT) es un nuevo marco de aprendizaje de representación diseñado para secuencias de transacciones financieras, con el objetivo de detectar fraudes. Utiliza el aprendizaje contrastivo auto-supervisado para generar embeddings que capturan patrones de comportamiento temporales, mostrando un rendimiento predictivo significativo, especialmente al combinarse con características diseñadas para el dominio.

27
RESEARCHarXiv CS.LG·24/4/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Los Transformers sufren altos costos computacionales y consumo de memoria para secuencias largas, mientras que las alternativas pierden dependencias a largo plazo. Absorber LLM propone una sincronización causal auto-supervisada para absorber contextos históricos en los parámetros, asegurando que un modelo sin contexto coincida con el original de contexto completo en generaciones futuras.

27
RESEARCHarXiv CS.LG·hace 29d

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

El Framework TTCD (Transformer Integrated Temporal Causal Discovery) es un enfoque novedoso de extremo a extremo diseñado para aprender relaciones causales contemporáneas y rezagadas a partir de datos complejos de series temporales no estacionarias. Este método aborda las limitaciones de las técnicas existentes al integrar atención temporal y en el dominio de la frecuencia, proporcionando una solución unificada para escenarios desafiantes del mundo real.

27
RESEARCHarXiv CS.LG·hace 22d

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Este artículo presenta un transformador sensible a las brechas residuales para predecir la progresión de la enfermedad de Alzheimer a 24 meses, utilizando historiales clínicos y biomarcadores del ADNI. La investigación analiza el cambio en las puntuaciones CDR-SB, anclando muestras en visitas de deterioro cognitivo leve.

27
RESEARCHarXiv CS.LG·hace 29d

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Esta investigación analiza tres esquemas de cuantificación de caché KV (KV, KQV, QKQV) y su impacto en la varianza del producto interno, especialmente cómo QJL en K la infla, amplificado por softmax. Los hallazgos empíricos resaltan el rendimiento superior de KQV con un presupuesto de n=4, una asimetría K-V incondicional donde QKQV es consistentemente peor que KQV en la divergencia KL, y cruces dependientes del presupuesto para la reconstrucción geométrica de K.

27