← heapsort-ai

Transformers

57 items

RESEARCHarXiv CS.LG·11/5/2026

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

El Toeplitz MLP Mixer (TMM) es una nueva arquitectura similar a los transformadores que reemplaza la atención por una multiplicación de matriz de Toeplitz con máscara triangular, reduciendo significativamente la complejidad computacional a O(dn log n) de tiempo y O(dn) de espacio. Los TMM demuestran una eficiencia de entrenamiento superior y una mejor retención de información de entrada en comparación con los transformadores tradicionales, a pesar de su diseño más simple.

27
RESEARCHarXiv CS.CL·hace 7d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

27
RESEARCHarXiv CS.LG·6/4/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

27
RESEARCHarXiv CS.AI·23/4/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Este estudio investiga estrategias de aumento de datos para mejorar la clasificación de texto basada en transformadores en la puntuación automatizada de explicaciones científicas de estudiantes, abordando el desequilibrio de clases. Evalúa métodos como respuestas generadas por GPT-4, EASE y ALP contra una línea base de SciBERT, utilizando un conjunto de datos de 1.466 respuestas de secundaria.

27
NEWSTogether AI Blog·17/3/2026

Mamba-3

Se presenta Mamba-3, un nuevo Modelo de Espacio de Estados (SSM) de código abierto diseñado para inferencia. Es más rápido que los Transformers en la decodificación y más potente que Mamba-2.

27
ARTICLEDEV.to AI·13/4/2026

Transformers — Deep Dive + Problem: Pacific Atlantic Water Flow

Este contenido presenta una inmersión diaria en temas de Machine Learning, centrándose en el modelo Transformer del capítulo Fundamentos de PNL. Explica la función del Transformer en el manejo de datos secuenciales, su capacidad para procesar información en paralelo y su importancia para tareas como la traducción de idiomas, el resumen de texto y el análisis de sentimientos.

24