Transformers

57 items

RESEARCHarXiv CS.LG·11/5/2026

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

El Toeplitz MLP Mixer (TMM) es una nueva arquitectura similar a los transformadores que reemplaza la atención por una multiplicación de matriz de Toeplitz con máscara triangular, reduciendo significativamente la complejidad computacional a O(dn log n) de tiempo y O(dn) de espacio. Los TMM demuestran una eficiencia de entrenamiento superior y una mejor retención de información de entrada en comparación con los transformadores tradicionales, a pesar de su diseño más simple.

neural networks AI architecture Computational Efficiency sequence models

RESEARCHarXiv CS.LG·hace 28d

Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization

El artículo introduce Vertex-Softmax, un nuevo método para la verificación certificada de la atención de transformadores mediante la optimización exacta de la función softmax. Demuestra que el óptimo exacto se alcanza en un vértice del cuadro de restricción, lo que produce un límite más ajustado.

Optimization machine learning Verification AI

RESEARCHarXiv CS.CL·hace 7d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

neural networks LLMs deep learning Attention Mechanism

RESEARCHarXiv CS.LG·hace 16d

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

El artículo presenta Tensor Cache, una caché de dos niveles para Transformers que optimiza las cachés KV. Combina la atención softmax de ventana deslizante (L1) con una memoria de peso rápido de producto externo de tamaño fijo (L2) para gestionar los tokens desalojados, mejorando el acceso a evidencia relevante fuera de la ventana de contexto.

Associative Memory deep learning AI Caching

RESEARCHarXiv CS.LG·hace 15d

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Esta investigación presenta los Transformers Verificables, un marco para convertir circuitos de Transformer localizados por tarea en afirmaciones acotadas y verificables por un solucionador. Permite la verificación de propiedades como la equivalencia funcional y la robustez mediante codificación SMT directa o mediada por sustituto.

AI interpretability Formal verification Transformers

DOCDEV.to AI·16/4/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

El artículo explica que los Transformers reutilizan el mismo conjunto de pesos para consultas, claves y valores en todas las palabras de entrada, lo que permite la computación paralela. Esta reutilización hace que el mecanismo de autoatención sea muy eficiente.

neural networks Self-Attention deep learning Parallel Computing

DOCHugging Face Blog·hace 22d

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

PaddleOCR 3.5 permite la ejecución de tareas de OCR y análisis de documentos. Esta versión utiliza un backend basado en Transformers para mejorar el procesamiento.

document parsing PaddleOCR AI OCR

ARTICLEDEV.to AI·26/4/2026

Your Transformer is Secretly Linear

Este artículo explora la idea de que, a pesar de su complejidad, los modelos Transformer pueden exhibir propiedades lineales o ser equivalentes a ellos en ciertos aspectos. La discusión profundiza en la naturaleza fundamental de estos modelos de IA y sus implicaciones.

neural networks deep learning machine learning AI

ARTICLEDEV.to AI·13/4/2026

Understanding Transformers Part 6: Calculating Similarity Between Queries and Keys

Este artículo detalla el cálculo de la similitud entre consultas (queries) y claves (keys) en Transformers utilizando el producto escalar, ilustrando cómo la similitud de una palabra consigo misma es mayor que con otras. Explica que estas puntuaciones se transforman luego en pesos significativos mediante una función softmax.

machine learning Dot Product NLP AI

RESEARCHarXiv CS.CL·7/4/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.LG·6/4/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

Dados Exógenos Pegada de Carbono machine learning IA

RESEARCHarXiv CS.AI·23/4/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Este estudio investiga estrategias de aumento de datos para mejorar la clasificación de texto basada en transformadores en la puntuación automatizada de explicaciones científicas de estudiantes, abordando el desequilibrio de clases. Evalúa métodos como respuestas generadas por GPT-4, EASE y ALP contra una línea base de SciBERT, utilizando un conjunto de datos de 1.466 respuestas de secundaria.

machine learning Natural Language Processing education technology Data Augmentation

NEWSTogether AI Blog·17/3/2026

Mamba-3

Se presenta Mamba-3, un nuevo Modelo de Espacio de Estados (SSM) de código abierto diseñado para inferencia. Es más rápido que los Transformers en la decodificación y más potente que Mamba-2.

open-source inference Mamba-3 SSM

ARTICLEHugging Face (YouTube)·16/4/2026

RoPE: Understanding Rotary Positional Embeddings in transformers

Este contenido explora las Incrustaciones Posicionales Rotativas (RoPE) utilizadas en arquitecturas de transformadores. Su objetivo es profundizar la comprensión de cómo funciona RoPE y su importancia en el modelado de secuencias.

RoPE AI models Positional Embeddings deep learning

RoPE: Understanding Rotary Positional Embeddings in transformers

DOCStatQuest (YouTube)·18/11/2024

Encoder-Only Transformers (like BERT) for RAG, Clearly Explained!!!

Este contenido explica claramente los Transformers solo con codificador, como BERT, y su uso en sistemas de Generación Aumentada por Recuperación (RAG). Cubre los conceptos fundamentales para comprender cómo estos modelos contribuyen a la eficacia de RAG.

BERT RAG AI Explanation Encoder-Only Models

Encoder-Only Transformers (like BERT) for RAG, Clearly Explained!!!

ARTICLEDEV.to AI·13/4/2026

Transformers — Deep Dive + Problem: Pacific Atlantic Water Flow

Este contenido presenta una inmersión diaria en temas de Machine Learning, centrándose en el modelo Transformer del capítulo Fundamentos de PNL. Explica la función del Transformer en el manejo de datos secuenciales, su capacidad para procesar información en paralelo y su importancia para tareas como la traducción de idiomas, el resumen de texto y el análisis de sentimientos.

Sequential Data machine learning NLP RNNs

ARTICLEHugging Face Blog·26/2/2026

Mixture of Experts (MoEs) in Transformers

Este conteúdo aborda o conceito de Mixture of Experts (MoEs) e sua aplicação em arquiteturas de Transformers. A técnica visa otimizar a eficiência e o desempenho de modelos de inteligência artificial.

neural networks machine learning MoE AI