← heapsort-ai

Transformer Architecture

10 items

RESEARCHarXiv CS.AI·16/04/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artigo analisa rigorosamente como a instabilidade numérica da precisão finita causa imprevisibilidade em LLMs, um problema crítico em fluxos de trabalho agenticos. Ele detalha a propagação de erros de arredondamento, identificando um efeito de “avalanche” caótico nas camadas iniciais e comportamentos caóticos universais.

33
ARTICLEDEV.to AI·18d atrás

Understanding Transformer Architecture in 2026 (SilentRecon Deep Dive)

O artigo "SilentRecon Deep Dive" explora a arquitetura Transformer, explicando como ela superou RNNs e LSTMs ao permitir processamento paralelo e atenção. Isso resultou em escalabilidade, treinamento rápido, compreensão contextual e inferência em tempo real, tornando-os a camada de inteligência padrão para cibersegurança e automação.

29
RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta pesquisa apresenta a compressão sequencial de KV, uma nova arquitetura de duas camadas para caches de chave-valor de transformadores que supera o limite de Shannon por vetor. Ela explora a natureza sequencial dos tokens do cache KV, utilizando deduplicação probabilística de prefixos e codificação delta preditiva para compressão mais eficiente.

27
RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

O artigo apresenta evidências causais de que a alucinação em modelos de linguagem autorregressivos é um compromisso de trajetória inicial governado por dinâmicas de atrator assimétricas. A pesquisa revela que trajetórias factuais e alucinadas divergem muito cedo, e que a correção de um caminho alucinado requer intervenção sustentada, enquanto a corrupção é mais fácil.

27
RESEARCHarXiv CS.AI·11d atrás

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

O Cognitive Categorical Transformer (CCT) é uma arquitetura de 306M parâmetros que aumenta um GPT-2 Small pré-treinado com componentes baseados na teoria das categorias e inspirações da ciência cognitiva. Ele alcançou uma redução relativa de 12% na perplexidade no WikiText-103 em comparação com um GPT-2 Small de linha de base, com 84% da melhoria atribuída à passagem de mensagens simplificadas GT-Full.

27
RESEARCHarXiv CS.AI·07/04/2026

Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models

Este artigo introduz uma nova estrutura de governança baseada em energia para LLMs, que conecta a dinâmica de inferência de transformers a modelos de satisfação de restrições, desafiando métodos atuais de segurança de IA. A pesquisa identifica uma janela de pré-comprometimento de 57 tokens em Phi-3-mini-4k-instruct, demonstrando que tais sinais existem, mas são específicos do modelo, tarefa e configuração, e propõe uma taxonomia de comportamento de inferência.

27