Transformer Architecture

10 items

RESEARCHarXiv CS.AI·16/4/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artículo analiza rigurosamente cómo la inestabilidad numérica de la precisión finita genera imprevisibilidad en los LLM, un problema crítico de fiabilidad en los flujos de trabajo agénticos. Detalla la propagación de errores de redondeo, identificando un "efecto avalancha" caótico en las capas tempranas y comportamientos caóticos universales dependientes de la escala.

Transformer Architecture LLMs chaos theory AI reliability

ARTICLEDEV.to AI·hace 18d

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

El artículo "SilentRecon Deep Dive" explora la arquitectura Transformer, explicando cómo superó a las RNN y LSTMs al permitir el procesamiento paralelo y la atención. Esto resultó en escalabilidad, entrenamiento más rápido, comprensión contextual profunda e inferencia en tiempo real, convirtiéndolos en la capa de inteligencia predeterminada para la ciberseguridad y la automatización.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.LG·20/4/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.LG·20/4/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

El estudio proporciona evidencia causal de que la alucinación en modelos de lenguaje autorregresivos es un compromiso temprano de trayectoria regido por dinámicas de atractor asimétricas. La investigación demuestra que las trayectorias fácticas y alucinadas divergen en el primer token, y que corregir una trayectoria alucinada requiere una intervención sostenida, mientras que la corrupción es más sencilla.

Transformer Architecture LLMs hallucination model dynamics

ARTICLEDEV.to AI·24/4/2026

Layer Normalization — Deep Dive + Problem: Largest Connected Region

Este contenido ofrece una inmersión profunda en la Normalización de Capas, un componente crucial de la Arquitectura Transformer. Detalla su importancia para estabilizar el entrenamiento y mejorar el rendimiento de los Large Language Models (LLMs), originándose del artículo "Attention is All You Need".

Transformer Architecture LLMs deep learning NLP

ARTICLEDEV.to AI·hace 22d

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Este artículo explica las Incrustaciones por Capa (PLE), un mecanismo en Gemma 4 E2B que le permite superar a modelos más grandes a pesar de su recuento de 2B parámetros. Detalla el mecanismo exacto, comparando los puntos de referencia de E2B y discutiendo el impacto de PLE en la comprensión de LLMs, la cuantificación y el despliegue.

Transformer Architecture Gemma 4 E2B Per-Layer Embeddings

ARTICLEDEV.to AI·8/4/2026

Gemma 4: Byte for byte, the most capable open models

O modelo Gemma 4, anunciado pela DeepMind, representa um marco significativo em LLMs de código aberto. Ele emprega uma arquitetura baseada em transformer com 7 bilhões de parâmetros e um design eficiente que utiliza mecanismos de autoatenção hierárquicos para otimizar sua capacidade.

Transformer Architecture LLMs DeepMind Gemma 4

RESEARCHarXiv CS.AI·hace 11d

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

El Cognitive Categorical Transformer (CCT) es una arquitectura de 306M parámetros que aumenta un GPT-2 Small preentrenado con componentes derivados de la teoría de categorías e inspiraciones de la ciencia cognitiva. Logró una reducción relativa del 12% en la perplejidad en WikiText-103 en comparación con un GPT-2 Small de referencia, atribuyéndose el 84% de la mejora al paso de mensajes simplistas de GT-Full.

Transformer Architecture cognitive science GPT-2 Category Theory

RESEARCHarXiv CS.AI·7/4/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

ARTICLEDEV.to AI·15/4/2026

Gemma 4: Byte for byte, the most capable open models

Gemma 4 es un modelo de lenguaje abierto altamente capaz y eficiente en parámetros, que logra un rendimiento de vanguardia. Aprovecha una arquitectura de transformador con innovaciones como atención dispersa y optimizaciones FFN para reducir costos computacionales y mejorar las velocidades de inferencia.

Parameter efficiency Transformer Architecture Gemma 4 sparse attention