← heapsort-ai

Transformer Architecture

10 items

RESEARCHarXiv CS.AI·16/4/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artículo analiza rigurosamente cómo la inestabilidad numérica de la precisión finita genera imprevisibilidad en los LLM, un problema crítico de fiabilidad en los flujos de trabajo agénticos. Detalla la propagación de errores de redondeo, identificando un "efecto avalancha" caótico en las capas tempranas y comportamientos caóticos universales dependientes de la escala.

33
ARTICLEDEV.to AI·hace 18d

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

El artículo "SilentRecon Deep Dive" explora la arquitectura Transformer, explicando cómo superó a las RNN y LSTMs al permitir el procesamiento paralelo y la atención. Esto resultó en escalabilidad, entrenamiento más rápido, comprensión contextual profunda e inferencia en tiempo real, convirtiéndolos en la capa de inteligencia predeterminada para la ciberseguridad y la automatización.

29
RESEARCHarXiv CS.LG·20/4/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.

27
RESEARCHarXiv CS.LG·20/4/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

El estudio proporciona evidencia causal de que la alucinación en modelos de lenguaje autorregresivos es un compromiso temprano de trayectoria regido por dinámicas de atractor asimétricas. La investigación demuestra que las trayectorias fácticas y alucinadas divergen en el primer token, y que corregir una trayectoria alucinada requiere una intervención sostenida, mientras que la corrupción es más sencilla.

27
ARTICLEDEV.to AI·hace 22d

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Este artículo explica las Incrustaciones por Capa (PLE), un mecanismo en Gemma 4 E2B que le permite superar a modelos más grandes a pesar de su recuento de 2B parámetros. Detalla el mecanismo exacto, comparando los puntos de referencia de E2B y discutiendo el impacto de PLE en la comprensión de LLMs, la cuantificación y el despliegue.

27
RESEARCHarXiv CS.AI·hace 11d

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

El Cognitive Categorical Transformer (CCT) es una arquitectura de 306M parámetros que aumenta un GPT-2 Small preentrenado con componentes derivados de la teoría de categorías e inspiraciones de la ciencia cognitiva. Logró una reducción relativa del 12% en la perplejidad en WikiText-103 en comparación con un GPT-2 Small de referencia, atribuyéndose el 84% de la mejora al paso de mensajes simplistas de GT-Full.

27
RESEARCHarXiv CS.AI·7/4/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27