Transformers

56 items

RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.LG·7d atrás

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer é um Transformer híbrido multirramo proposto para superar os desafios de alta dimensionalidade e padrões complexos na detecção acústica distribuída (DAS). Ele integra características estatísticas compactas de múltiplos domínios, reduzindo significativamente o tamanho dos dados e melhorando a classificação de eventos.

deep learning machine learning pattern recognition distributed acoustic sensing

RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta pesquisa revela que o cache KV na inferência autorregressiva de transformadores, sob precisão FP16 padrão, causa uma divergência sistemática nas sequências de tokens decodificadas devido a diferentes ordens de acumulação de ponto flutuante. Observou-se uma taxa de divergência de 100% em modelos como LLaMA-2-7B e Mistral-7B, com o cache-ON frequentemente resultando em maior precisão.

AI models inference LLMs numerical precision

RESEARCHarXiv CS.LG·15/04/2026

How Transformers Learn to Plan via Multi-Token Prediction

Este artigo investiga como a Previsão Multi-Token (MTP) permite que os Transformers aprendam a planejar, superando a Previsão de Próximo Token (NTP). Empiricamente, a MTP melhora o desempenho em tarefas de raciocínio e, teoricamente, induz um processo de raciocínio reverso de duas etapas através do desacoplamento de gradientes.

Next-token prediction Planning Multi-Token Prediction Reasoning

DOCDEV.to AI·20d atrás

92. BERT: The Model That Reads in Both Directions

BERT se diferencia do GPT por sua capacidade de leitura bidirecional, prevendo palavras mascaradas em vez de sequências. Essa compreensão contextual completa o tornou dominante em benchmarks de PNL e um pilar para tarefas de entendimento. O conteúdo detalha os mecanismos de pré-treinamento e as técnicas de ajuste fino do BERT.

BERT GPT machine learning NLP

RESEARCHDEV.to AI·24d atrás

Efficient 8-Bit Quantization of Transformer Neural Machine Language TranslationModel

Este artigo aborda a quantização eficiente de 8 bits para modelos Transformer de tradução de linguagem de máquina. O objetivo é otimizar o desempenho e a eficiência destes modelos, reduzindo o consumo de memória e a latência.

AI models efficiency NLP quantization

DOCDEV.to AI·24d atrás

83. HuggingFace: Your Library for Every Pretrained Model

Este conteúdo apresenta como a HuggingFace torna a PNL prática acessível através de suas bibliotecas e Model Hub. Ele demonstra a simplificação do uso de modelos pré-treinados para tarefas como análise de sentimento com poucas linhas de código.

learning machine learning NLP HuggingFace

RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Este conteúdo apresenta o conceito de um Transformer Livre de Atenção, um novo design arquitetônico que busca replicar as capacidades dos Transformers tradicionais sem o mecanismo de autoatenção. Provavelmente explora mecanismos alternativos para o processamento de informações contextuais em tarefas de sequência para sequência.

neural networks deep learning AI Architectures Transformers

RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Este estudo investiga a necessidade de tokens de memória aprendidos como bloco de rascunho computacional para Universal Transformers com Adaptive Computation Time (ACT) em um benchmark de raciocínio combinatório. Ele conclui que os tokens de memória são empiricamente necessários para um desempenho não trivial e identifica um limite inferior acentuado para a contagem ótima e uma armadilha comum de inicialização do roteador.

neural networks deep learning memory Reasoning

RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.

grokking machine learning representation learning Transformers

RESEARCHarXiv CS.LG·27/04/2026

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propõe uma otimização para LLMs, modificando seletivamente o mecanismo de atenção com base na sensibilidade de cada camada do transformer. Isso visa reduzir a complexidade quadrática do softmax attention, um grande gargalo para a inferência eficiente, sem comprometer significativamente a qualidade do modelo.

LLMs AI optimization attention mechanisms Transformers

RESEARCHarXiv CS.LG·20/04/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artigo de pesquisa revela transições de fase espectrais nos espaços de ativação ocultos de modelos de linguagem grandes durante o raciocínio versus a recuperação de fatos. Uma análise espectral sistemática em 11 modelos e 5 famílias de arquitetura identifica sete fenômenos centrais, incluindo compressão espectral no raciocínio e reversão espectral com ajuste de instrução.

neural networks LLMs machine learning AI Research

RESEARCHarXiv CS.LG·08/05/2026

Adaptive Computation Depth via Learned Token Routing in Transformers

Este artigo apresenta Token-Selective Attention (TSA), um mecanismo para transformar a arquitetura que permite profundidade de computação adaptativa por token. O TSA aprende a rotear tokens com base na dificuldade contextual, economizando 14-23% das operações de camada de token com perda mínima de qualidade.

neural networks deep learning machine learning efficiency

RESEARCHarXiv CS.LG·17d atrás

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

O Temporal Contrastive Transformer (TCT) é uma nova estrutura de aprendizado de representação desenvolvida para sequências de transações financeiras, visando a detecção de fraudes. Ele utiliza aprendizado contrastivo auto-supervisionado para criar embeddings que capturam padrões comportamentais temporais, demonstrando desempenho preditivo relevante, especialmente em conjunto com features específicas do domínio.

Financial AI security machine learning fraud detection

RESEARCHarXiv CS.LG·24/04/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformers enfrentam altos custos computacionais e consumo de memória para sequências longas, enquanto alternativas perdem dependências de longo alcance. Absorber LLM propõe uma sincronização causal auto-supervisionada para absorver contextos históricos nos parâmetros, garantindo que um modelo sem contexto corresponda ao original com contexto total em gerações futuras.

AI architecture Natural Language Processing Machine Learning Optimization large language models

RESEARCHarXiv CS.LG·28d atrás

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

O Framework TTCD (Transformer Integrated Temporal Causal Discovery) é uma abordagem inovadora de ponta a ponta para aprender relações causais contemporâneas e defasadas a partir de dados complexos de séries temporais não estacionárias. Este método supera as limitações das técnicas existentes, integrando atenção temporal e no domínio da frequência, oferecendo uma solução unificada para cenários desafiadores do mundo real.

Causal Discovery machine learning non-stationary data Time Series

RESEARCHarXiv CS.AI·07/05/2026

The Scaling Properties of Implicit Deductive Reasoning in Transformers

Este artigo investiga as propriedades de escala do raciocínio dedutivo implícito em Transformers para cláusulas de Horn. Modelos profundos com máscara de prefixo bidirecional se aproximam do desempenho explícito de CoT, embora CoT seja essencial para extrapolação de profundidade.

neural networks scaling deductive reasoning AI Research

RESEARCHarXiv CS.LG·21d atrás

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Este artigo propõe um transformador com reconhecimento de lacunas residuais para prever a progressão da doença de Alzheimer em 24 meses, utilizando dados clínicos e biomarcadores do ADNI. A pesquisa analisa a mudança na pontuação CDR-SB, ancorando amostras em visitas de comprometimento cognitivo leve.

Biomarkers machine learning Alzheimer's disease Medical Diagnosis

RESEARCHarXiv CS.LG·28d atrás

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Esta pesquisa analisa três esquemas de quantização de cache KV (KV, KQV, QKQV) e seu impacto na variância do produto interno, especialmente como o QJL em K a infla, amplificado pelo softmax. Descobertas empíricas destacam o desempenho superior do KQV com um orçamento de n=4, uma assimetria K-V incondicional onde QKQV é consistentemente pior que KQV na divergência KL, e cruzamentos dependentes do orçamento para a reconstrução geométrica de K.

machine learning quantization AI statistical inference

RESEARCHarXiv CS.LG·29d atrás

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

O Toeplitz MLP Mixer (TMM) é uma nova arquitetura semelhante a transformadores que substitui a atenção por multiplicação de matriz Toeplitz mascarada triangularmente, reduzindo significativamente a complexidade computacional para O(dn log n) de tempo e O(dn) de espaço. Os TMMs demonstram maior eficiência de treinamento e melhor retenção de informações de entrada em comparação com os transformadores tradicionais, apesar de seu design mais simples.

neural networks AI architecture Computational Efficiency sequence models