Transformer Architecture

10 items

RESEARCHarXiv CS.AI·16/04/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artigo analisa rigorosamente como a instabilidade numérica da precisão finita causa imprevisibilidade em LLMs, um problema crítico em fluxos de trabalho agenticos. Ele detalha a propagação de erros de arredondamento, identificando um efeito de “avalanche” caótico nas camadas iniciais e comportamentos caóticos universais.

Transformer Architecture LLMs chaos theory AI reliability

ARTICLEDEV.to AI·18d atrás

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

O artigo "SilentRecon Deep Dive" explora a arquitetura Transformer, explicando como ela superou RNNs e LSTMs ao permitir processamento paralelo e atenção. Isso resultou em escalabilidade, treinamento rápido, compreensão contextual e inferência em tempo real, tornando-os a camada de inteligência padrão para cibersegurança e automação.

Transformer Architecture cybersecurity deep learning learning

RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta pesquisa apresenta a compressão sequencial de KV, uma nova arquitetura de duas camadas para caches de chave-valor de transformadores que supera o limite de Shannon por vetor. Ela explora a natureza sequencial dos tokens do cache KV, utilizando deduplicação probabilística de prefixos e codificação delta preditiva para compressão mais eficiente.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

O artigo apresenta evidências causais de que a alucinação em modelos de linguagem autorregressivos é um compromisso de trajetória inicial governado por dinâmicas de atrator assimétricas. A pesquisa revela que trajetórias factuais e alucinadas divergem muito cedo, e que a correção de um caminho alucinado requer intervenção sustentada, enquanto a corrupção é mais fácil.

Transformer Architecture LLMs hallucination model dynamics

ARTICLEDEV.to AI·24/04/2026

Layer Normalization — Deep Dive + Problem: Largest Connected Region

Este conteúdo oferece um aprofundamento na Normalização de Camadas, um componente crucial da Arquitetura Transformer. Ele detalha sua importância para estabilizar o treinamento e melhorar o desempenho de Large Language Models (LLMs), originando-se do paper "Attention is All You Need".

Transformer Architecture LLMs deep learning NLP

ARTICLEDEV.to AI·22d atrás

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Este artigo explica as Incorporações Por Camada (PLE), um mecanismo no Gemma 4 E2B que lhe permite superar modelos maiores, apesar de sua contagem de 2B parâmetros. Ele detalha o mecanismo exato, comparando os benchmarks do E2B e discutindo o impacto do PLE na compreensão de LLMs, quantização e implantação.

Transformer Architecture Gemma 4 E2B Per-Layer Embeddings

ARTICLEDEV.to AI·08/04/2026

Gemma 4: Byte for byte, the most capable open models

O modelo Gemma 4, anunciado pela DeepMind, representa um marco significativo em LLMs de código aberto. Ele emprega uma arquitetura baseada em transformer com 7 bilhões de parâmetros e um design eficiente que utiliza mecanismos de autoatenção hierárquicos para otimizar sua capacidade.

Transformer Architecture LLMs DeepMind Gemma 4

RESEARCHarXiv CS.AI·11d atrás

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

O Cognitive Categorical Transformer (CCT) é uma arquitetura de 306M parâmetros que aumenta um GPT-2 Small pré-treinado com componentes baseados na teoria das categorias e inspirações da ciência cognitiva. Ele alcançou uma redução relativa de 12% na perplexidade no WikiText-103 em comparação com um GPT-2 Small de linha de base, com 84% da melhoria atribuída à passagem de mensagens simplificadas GT-Full.

Transformer Architecture cognitive science GPT-2 Category Theory

RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

Transformer Architecture Inference Dynamics energy-based models Pre-commitment Signals

ARTICLEDEV.to AI·15/04/2026

Gemma 4: Byte for byte, the most capable open models

Gemma 4 é um modelo de linguagem aberto altamente capaz e eficiente em parâmetros, alcançando desempenho de ponta. Ele utiliza uma arquitetura de transformador com inovações como atenção esparsa e otimizações FFN para reduzir custos computacionais e acelerar a inferência.

Parameter efficiency Transformer Architecture Gemma 4 sparse attention