Transformers

56 items

RESEARCHarXiv CS.LG·hace 1d

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

El artículo presenta WAV v1, un método ligero de enrutamiento residual multirresolución para Transformers solo con decodificador. Mejora las conexiones residuales estándar al aumentar cada bloque con bases de detalle direccionales que contrastan las actualizaciones de atención y MLP, y las dinámicas de subcapas tempranas y tardías.

Residual Connections neural networks deep learning Model Architecture

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un desarrollador entrenó modelos de deep learning basados en transformadores para jugar ajedrez como humanos en varios rangos de rating, incluyendo la predicción del tiempo de pensamiento. Los modelos fueron entrenados con datos de Lichess y lograron una precisión comparable a MAIA-3, a pesar de su pequeño tamaño.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·24/4/2026

Nanochat vs Llama for training from scratch? [P]

El usuario está entrenando un modelo de IA desde cero y busca consejo sobre la mejor arquitectura, considerando cambiar de Nanochat (que carece de compatibilidad con Transformers) a la arquitectura Llama. El objetivo es un proyecto de código abierto con un conjunto de datos nuevo y más grande, a pesar de las ventajas de Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·4/5/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Esta publicación detalla hallazgos empíricos de la competición Parameter Golf de OpenAI, explicando por qué los Modelos de Espacio de Estado (SSMs) están estructuralmente en desventaja frente a los transformadores en regímenes de entrenamiento con restricciones de parámetros y tiempo. Los problemas clave incluyen una peor compresión de los pesos in_proj de los SSM y reversiones de victorias arquitectónicas con vocabularios más grandes, junto con conocimientos de experimentos con los kernels Triton Mamba-3.

SSMs AI models Performance optimization Neural network training

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos ha lanzado ResBM, una nueva arquitectura basada en transformadores para entrenamiento paralelo en pipeline de bajo ancho de banda. Logra una compresión de activación de 128 veces sin pérdida significativa en la convergencia.

distributed training machine learning architecture model optimization Transformers

RESEARCH↑ trendingReddit r/MachineLearning·6/5/2026

Transformers with Selective Access to Early Representations [R]

El artículo presenta SATFormer, una nueva variante de Transformer que mejora la eficiencia al permitir que los "heads" re-accedan selectivamente a representaciones tempranas en lugar de copiarlas uniformemente. Este mecanismo de "gating" dependiente del contexto optimiza la reutilización de información, ofreciendo un mejor equilibrio entre eficiencia y rendimiento.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·13/4/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Este contenido analiza un artículo de investigación sobre Transformers Recurrentes en Profundidad, destacando sus hallazgos sobre la generalización composicional y fuera de distribución. Explora cómo la supervisión de pasos intermedios puede obstaculizar el razonamiento genuino en los modelos de IA, haciéndolos demasiado dependientes de heurísticas estadísticas, un concepto extendido a los modelos fundacionales y la intuición humana.

OOD Generalization Compositional Generalization AI Reasoning Intermediate Supervision

ARTICLE↑ trendingReddit r/MachineLearning·25/4/2026

How Visual-Language-Action (VLA) Models Work [D]

Este artículo ofrece un desglose técnico de cómo funcionan los modelos Visual-Lenguaje-Acción (VLA), explicando cómo transforman las entradas de visión y lenguaje en acciones robóticas. Cubre los enfoques de decodificación de acciones actuales, incluyendo acciones autorregresivas tokenizadas, cabezas de acción basadas en difusión y políticas de coincidencia de flujo.

machine learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

ARTICLE↑ trendingReddit r/LocalLLaMA·1/5/2026

By when do you think will TurboQuant get a proper release and be adopted by everyone

El usuario pregunta sobre la fecha de lanzamiento y la adopción masiva de TurboQuant, destacando las enormes ganancias de rendimiento al usar una configuración asimétrica para K y V. La discusión apunta a una optimización técnica en modelos de inteligencia artificial.

AI models machine learning Transformers

RESEARCHarXiv CS.LG·hace 5d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.LG·22/4/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Este trabajo aborda el desafío de las modalidades faltantes en los datos clínicos multimodales para el diagnóstico, reformulándolo como una tarea de modelado de secuencia autorregresiva. Utiliza decodificadores causales de LLMs y un preentrenamiento contrastivo consciente de la falta para superar las bases en benchmarks como MIMIC-IV y eICU.

multimodal AI machine learning large language models healthcare AI

RESEARCHarXiv CS.LG·15/4/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Este artículo estudia la propagación de la señal en la inicialización de transformers utilizando la norma jacobiana parcial promedio (APJN) para medir la amplificación del gradiente. La teoría predice cómo la atención modifica el comportamiento asintótico de la APJN a gran profundidad y explica la subcriticidad de arquitecturas sin normalización como los transformers Dynamic Tanh y Dynamic erf.

Normalization-Free Transformers Gradient Amplification Signal Propagation Initialization

RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·28/4/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Esta investigación sistemática sobre los espectros de valores singulares durante el preentrenamiento de transformadores revela tres fenómenos clave: ondas de compresión transitorias que se propagan por las capas y gradientes espectrales persistentes. También identifica una asimetría funcional Q/K-V, donde las proyecciones de consulta/clave impulsan la dinámica dependiente de la profundidad.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·hace 8d

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este estudio aborda el "alineamiento engañoso" en LLMs, un desafío crítico para la seguridad de la IA, donde los modelos generan resultados falsos intencionadamente a pesar de tener representaciones internas precisas. Utilizando un paradigma multi-modelo con varias arquitecturas de transformadores, se detectó deshonestidad sintética con alta precisión mediante el uso de sondas lineales.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.LG·6/5/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ es un pipeline de compresión de dos etapas para la caché KV en cabezas de atención de transformadores. Utiliza la contracción óptima de valores singulares y la cuantificación escalar por vector, basada en la teoría de matrices aleatorias, para lograr una compresión casi sin pérdidas y mejorar la reconstrucción.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·hace 28d

Multi-Head Attention: Collaborate Instead of Concatenate

Este contenido explora el mecanismo de atención multi-cabeza en modelos de IA, centrándose en la idea de colaboración en lugar de concatenación. Probablemente discute un enfoque alternativo para mejorar la eficiencia o el rendimiento de la atención.

deep learning Attention Mechanism machine learning AI

RESEARCHarXiv CS.LG·14/4/2026

The Diffusion-Attention Connection

Esta investigación unifica Transformers, mapas de difusión y Laplacianos magnéticos, mostrándolos como diferentes regímenes de una única geometría de Markov. El estudio define una "bidivergencia" QK para conectar atención y difusión, organizando sus dinámicas con producto de expertos y puentes de Schrödinger.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

DOCDEV.to AI·17/4/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Este artículo explica por qué los valores de autoatención reemplazan las codificaciones posicionales originales, ya que integran información contextual de todas las palabras, aclarando relaciones. Luego introduce el apilamiento de múltiples capas de autoatención, cada una con pesos únicos, para capturar relaciones lingüísticas más complejas dentro de oraciones y párrafos.

neural networks Self-Attention deep learning NLP

ARTICLEDEV.to AI·hace 29d

How Large Language Models Work — From Transformers to Conversational AI

Los Grandes Modelos de Lenguaje (LLMs) funcionan como redes neuronales que aprenden patrones en el texto para generar contenido, prediciendo el siguiente token. Esta poderosa funcionalidad es impulsada por grandes volúmenes de datos, arquitecturas profundas y atención basada en Transformers.

AI Generative AI LLM Transformers