← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.LG·hace 1d

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

El artículo presenta WAV v1, un método ligero de enrutamiento residual multirresolución para Transformers solo con decodificador. Mejora las conexiones residuales estándar al aumentar cada bloque con bases de detalle direccionales que contrastan las actualizaciones de atención y MLP, y las dinámicas de subcapas tempranas y tardías.

60
RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Trained transformer-based chess models to play like humans (including thinking time) [P]

Un desarrollador entrenó modelos de deep learning basados en transformadores para jugar ajedrez como humanos en varios rangos de rating, incluyendo la predicción del tiempo de pensamiento. Los modelos fueron entrenados con datos de Lichess y lograron una precisión comparable a MAIA-3, a pesar de su pequeño tamaño.

44
ARTICLE↑ trendingReddit r/MachineLearning·24/4/2026

Nanochat vs Llama for training from scratch? [P]

El usuario está entrenando un modelo de IA desde cero y busca consejo sobre la mejor arquitectura, considerando cambiar de Nanochat (que carece de compatibilidad con Transformers) a la arquitectura Llama. El objetivo es un proyecto de código abierto con un conjunto de datos nuevo y más grande, a pesar de las ventajas de Nanochat.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/5/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Esta publicación detalla hallazgos empíricos de la competición Parameter Golf de OpenAI, explicando por qué los Modelos de Espacio de Estado (SSMs) están estructuralmente en desventaja frente a los transformadores en regímenes de entrenamiento con restricciones de parámetros y tiempo. Los problemas clave incluyen una peor compresión de los pesos in_proj de los SSM y reversiones de victorias arquitectónicas con vocabularios más grandes, junto con conocimientos de experimentos con los kernels Triton Mamba-3.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos ha lanzado ResBM, una nueva arquitectura basada en transformadores para entrenamiento paralelo en pipeline de bajo ancho de banda. Logra una compresión de activación de 128 veces sin pérdida significativa en la convergencia.

42
RESEARCH↑ trendingReddit r/MachineLearning·6/5/2026

Transformers with Selective Access to Early Representations [R]

El artículo presenta SATFormer, una nueva variante de Transformer que mejora la eficiencia al permitir que los "heads" re-accedan selectivamente a representaciones tempranas en lugar de copiarlas uniformemente. Este mecanismo de "gating" dependiente del contexto optimiza la reutilización de información, ofreciendo un mejor equilibrio entre eficiencia y rendimiento.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·13/4/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Este contenido analiza un artículo de investigación sobre Transformers Recurrentes en Profundidad, destacando sus hallazgos sobre la generalización composicional y fuera de distribución. Explora cómo la supervisión de pasos intermedios puede obstaculizar el razonamiento genuino en los modelos de IA, haciéndolos demasiado dependientes de heurísticas estadísticas, un concepto extendido a los modelos fundacionales y la intuición humana.

42
ARTICLE↑ trendingReddit r/MachineLearning·25/4/2026

How Visual-Language-Action (VLA) Models Work [D]

Este artículo ofrece un desglose técnico de cómo funcionan los modelos Visual-Lenguaje-Acción (VLA), explicando cómo transforman las entradas de visión y lenguaje en acciones robóticas. Cubre los enfoques de decodificación de acciones actuales, incluyendo acciones autorregresivas tokenizadas, cabezas de acción basadas en difusión y políticas de coincidencia de flujo.

How Visual-Language-Action (VLA) Models Work [D]
42
RESEARCHarXiv CS.LG·hace 5d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

29
RESEARCHarXiv CS.LG·22/4/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Este trabajo aborda el desafío de las modalidades faltantes en los datos clínicos multimodales para el diagnóstico, reformulándolo como una tarea de modelado de secuencia autorregresiva. Utiliza decodificadores causales de LLMs y un preentrenamiento contrastivo consciente de la falta para superar las bases en benchmarks como MIMIC-IV y eICU.

29
RESEARCHarXiv CS.LG·15/4/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Este artículo estudia la propagación de la señal en la inicialización de transformers utilizando la norma jacobiana parcial promedio (APJN) para medir la amplificación del gradiente. La teoría predice cómo la atención modifica el comportamiento asintótico de la APJN a gran profundidad y explica la subcriticidad de arquitecturas sin normalización como los transformers Dynamic Tanh y Dynamic erf.

29
RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

29
RESEARCHarXiv CS.LG·28/4/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Esta investigación sistemática sobre los espectros de valores singulares durante el preentrenamiento de transformadores revela tres fenómenos clave: ondas de compresión transitorias que se propagan por las capas y gradientes espectrales persistentes. También identifica una asimetría funcional Q/K-V, donde las proyecciones de consulta/clave impulsan la dinámica dependiente de la profundidad.

29
RESEARCHarXiv CS.LG·hace 8d

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este estudio aborda el "alineamiento engañoso" en LLMs, un desafío crítico para la seguridad de la IA, donde los modelos generan resultados falsos intencionadamente a pesar de tener representaciones internas precisas. Utilizando un paradigma multi-modelo con varias arquitecturas de transformadores, se detectó deshonestidad sintética con alta precisión mediante el uso de sondas lineales.

29
RESEARCHarXiv CS.LG·6/5/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ es un pipeline de compresión de dos etapas para la caché KV en cabezas de atención de transformadores. Utiliza la contracción óptima de valores singulares y la cuantificación escalar por vector, basada en la teoría de matrices aleatorias, para lograr una compresión casi sin pérdidas y mejorar la reconstrucción.

29
DOCDEV.to AI·17/4/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Este artículo explica por qué los valores de autoatención reemplazan las codificaciones posicionales originales, ya que integran información contextual de todas las palabras, aclarando relaciones. Luego introduce el apilamiento de múltiples capas de autoatención, cada una con pesos únicos, para capturar relaciones lingüísticas más complejas dentro de oraciones y párrafos.

28