Transformers

57 items

ARTICLEDEV.to AI·hace 29d

How Large Language Models Work — From Transformers to Conversational AI

Los Grandes Modelos de Lenguaje (LLMs) funcionan como redes neuronales que aprenden patrones en el texto para generar contenido, prediciendo el siguiente token. Esta poderosa funcionalidad es impulsada por grandes volúmenes de datos, arquitecturas profundas y atención basada en Transformers.

AI Generative AI LLM Transformers

RESEARCHarXiv CS.LG·6/4/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.LG·hace 8d

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer es un Transformer híbrido multirrama propuesto para superar los desafíos de alta dimensionalidad y patrones complejos en la detección acústica distribuida (DAS). Integra características estadísticas compactas de múltiples dominios, reduciendo significativamente el tamaño de los datos y mejorando la clasificación de eventos.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·20/4/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta investigación revela que el caché KV en la inferencia autorregresiva de transformadores, bajo precisión FP16 estándar, provoca una divergencia sistemática en las secuencias de tokens decodificadas debido a diferentes órdenes de acumulación de punto flotante. Se observó una tasa de divergencia del 100% en modelos como LLaMA-2-7B y Mistral-7B, con el caché-ON a menudo resultando en mayor precisión.

AI models inference LLMs numerical precision

RESEARCHarXiv CS.LG·15/4/2026

How Transformers Learn to Plan via Multi-Token Prediction

Este artículo estudia cómo la Predicción Multi-Token (MTP) permite a los Transformers aprender a planificar, superando la Predicción de Siguiente Token (NTP). Empíricamente, MTP mejora el rendimiento en tareas de razonamiento, y teóricamente, induce un proceso de razonamiento inverso de dos etapas mediante el desacoplamiento de gradientes.

Next-token prediction Planning Multi-Token Prediction Reasoning

DOCDEV.to AI·hace 20d

92. BERT: The Model That Reads in Both Directions

BERT se diferencia de GPT por su capacidad de lectura bidireccional, prediciendo palabras enmascaradas en lugar de secuenciales. Esta comprensión contextual completa lo convirtió en dominante en los benchmarks de PNL y una piedra angular para las tareas de comprensión. El contenido detalla los mecanismos de preentrenamiento y las técnicas de ajuste fino de BERT.

BERT GPT machine learning NLP

RESEARCHDEV.to AI·hace 24d

Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel

Este artículo trata sobre la cuantificación eficiente de 8 bits para modelos Transformer de traducción automática de idiomas. El objetivo es optimizar el rendimiento y la eficiencia de estos modelos, reduciendo el consumo de memoria y la latencia.

AI models efficiency NLP quantization

DOCDEV.to AI·hace 25d

83. HuggingFace: Your Library for Every Pretrained Model

Este contenido presenta cómo HuggingFace hace que el PNL práctico sea accesible a través de sus bibliotecas y Model Hub. Demuestra la simplificación del uso de modelos preentrenados para tareas como el análisis de sentimientos con código mínimo.

learning machine learning NLP HuggingFace

RESEARCHDEV.to AI·27/4/2026

An Attention Free Transformer

Este contenido introduce el concepto de un Transformer Libre de Atención, un nuevo diseño arquitectónico que busca replicar las capacidades de los Transformers tradicionales sin el mecanismo de autoatención. Probablemente explora mecanismos alternativos para el procesamiento de información contextual en tareas de secuencia a secuencia.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·27/4/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Esta investigación estudia la necesidad de tokens de memoria aprendidos como bloc de notas computacional para Transformers Universales con Tiempo de Computación Adaptativo (ACT) en un benchmark de razonamiento combinatorio. Concluye que los tokens de memoria son empíricamente necesarios para un rendimiento no trivial, identificando un umbral inferior pronunciado para el recuento óptimo y una trampa común de inicialización del enrutador.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·16/4/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta investigación estudia el fenómeno del 'grokking' en transformadores, hallando que el largo retraso en la generalización en modelos aritméticos proviene de un cuello de botella en el decodificador. El codificador adquiere conocimiento estructural relevante tempranamente, pero el decodificador lucha por acceder a él, una hipótesis respaldada por intervenciones causales como el trasplante de codificadores.

grokking machine learning representation learning Transformers

RESEARCHarXiv CS.LG·27/4/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propone una optimización para LLM modificando selectivamente el mecanismo de atención según la sensibilidad de las capas individuales del transformador. Esto busca reducir la complejidad cuadrática de la atención softmax, un cuello de botella importante para la inferencia eficiente, sin una degradación significativa de la calidad del modelo.

LLMs AI optimization Attention Mechanisms Transformers

RESEARCHarXiv CS.LG·20/4/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artículo de investigación descubre transiciones de fase espectrales en los espacios de activación ocultos de los grandes modelos de lenguaje durante el razonamiento frente a la recuperación de hechos. Un análisis espectral sistemático en 11 modelos y 5 familias de arquitectura identifica siete fenómenos centrales, incluyendo la compresión espectral de razonamiento y la inversión espectral por ajuste de instrucción.

neural networks LLMs machine learning AI research

RESEARCHarXiv CS.LG·8/5/2026

Adaptive Computation Depth via Learned Token Routing in Transformers

Este artículo presenta Token-Selective Attention (TSA), un mecanismo para arquitecturas Transformer que permite una profundidad de computación adaptativa por token. TSA aprende a enrutar tokens basándose en la dificultad contextual, ahorrando un 14-23% de las operaciones de capa de token con una pérdida mínima de calidad.

neural networks deep learning machine learning efficiency

RESEARCHarXiv CS.LG·hace 18d

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

El Temporal Contrastive Transformer (TCT) es un nuevo marco de aprendizaje de representación diseñado para secuencias de transacciones financieras, con el objetivo de detectar fraudes. Utiliza el aprendizaje contrastivo auto-supervisado para generar embeddings que capturan patrones de comportamiento temporales, mostrando un rendimiento predictivo significativo, especialmente al combinarse con características diseñadas para el dominio.

Financial AI security machine learning fraud detection

RESEARCHarXiv CS.LG·24/4/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Los Transformers sufren altos costos computacionales y consumo de memoria para secuencias largas, mientras que las alternativas pierden dependencias a largo plazo. Absorber LLM propone una sincronización causal auto-supervisada para absorber contextos históricos en los parámetros, asegurando que un modelo sin contexto coincida con el original de contexto completo en generaciones futuras.

AI architecture Natural Language Processing Machine Learning Optimization large language models

RESEARCHarXiv CS.LG·hace 29d

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

El Framework TTCD (Transformer Integrated Temporal Causal Discovery) es un enfoque novedoso de extremo a extremo diseñado para aprender relaciones causales contemporáneas y rezagadas a partir de datos complejos de series temporales no estacionarias. Este método aborda las limitaciones de las técnicas existentes al integrar atención temporal y en el dominio de la frecuencia, proporcionando una solución unificada para escenarios desafiantes del mundo real.

Causal Discovery machine learning non-stationary data Time Series

RESEARCHarXiv CS.AI·7/5/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Este artículo investiga las propiedades de escala del razonamiento deductivo implícito sobre cláusulas de Horn en Transformers con límite de profundidad. Los modelos profundos con una máscara de prefijo bidireccional se aproximan al rendimiento explícito de CoT, aunque CoT sigue siendo necesario para la extrapolación de profundidad.

neural networks scaling deductive reasoning AI research

RESEARCHarXiv CS.LG·hace 22d

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Este artículo presenta un transformador sensible a las brechas residuales para predecir la progresión de la enfermedad de Alzheimer a 24 meses, utilizando historiales clínicos y biomarcadores del ADNI. La investigación analiza el cambio en las puntuaciones CDR-SB, anclando muestras en visitas de deterioro cognitivo leve.

Biomarkers machine learning Alzheimer's disease medical diagnosis

RESEARCHarXiv CS.LG·hace 29d

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Esta investigación analiza tres esquemas de cuantificación de caché KV (KV, KQV, QKQV) y su impacto en la varianza del producto interno, especialmente cómo QJL en K la infla, amplificado por softmax. Los hallazgos empíricos resaltan el rendimiento superior de KQV con un presupuesto de n=4, una asimetría K-V incondicional donde QKQV es consistentemente peor que KQV en la divergencia KL, y cruces dependientes del presupuesto para la reconstrucción geométrica de K.

machine learning quantization AI statistical inference