← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.LG·7d atrás

DAStatFormer: A Hybrid Multibranch Transformer with Statistical Feature Integration for DAS-Based Pattern Recognitions

DAStatFormer é um Transformer híbrido multirramo proposto para superar os desafios de alta dimensionalidade e padrões complexos na detecção acústica distribuída (DAS). Ele integra características estatísticas compactas de múltiplos domínios, reduzindo significativamente o tamanho dos dados e melhorando a classificação de eventos.

28
RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta pesquisa revela que o cache KV na inferência autorregressiva de transformadores, sob precisão FP16 padrão, causa uma divergência sistemática nas sequências de tokens decodificadas devido a diferentes ordens de acumulação de ponto flutuante. Observou-se uma taxa de divergência de 100% em modelos como LLaMA-2-7B e Mistral-7B, com o cache-ON frequentemente resultando em maior precisão.

27
DOCDEV.to AI·20d atrás

92. BERT: The Model That Reads in Both Directions

BERT se diferencia do GPT por sua capacidade de leitura bidirecional, prevendo palavras mascaradas em vez de sequências. Essa compreensão contextual completa o tornou dominante em benchmarks de PNL e um pilar para tarefas de entendimento. O conteúdo detalha os mecanismos de pré-treinamento e as técnicas de ajuste fino do BERT.

27
RESEARCHDEV.to AI·27/04/2026

An Attention Free Transformer

Este conteúdo apresenta o conceito de um Transformer Livre de Atenção, um novo design arquitetônico que busca replicar as capacidades dos Transformers tradicionais sem o mecanismo de autoatenção. Provavelmente explora mecanismos alternativos para o processamento de informações contextuais em tarefas de sequência para sequência.

27
RESEARCHarXiv CS.LG·27/04/2026

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Este estudo investiga a necessidade de tokens de memória aprendidos como bloco de rascunho computacional para Universal Transformers com Adaptive Computation Time (ACT) em um benchmark de raciocínio combinatório. Ele conclui que os tokens de memória são empiricamente necessários para um desempenho não trivial e identifica um limite inferior acentuado para a contagem ótima e uma armadilha comum de inicialização do roteador.

27
RESEARCHarXiv CS.LG·16/04/2026

The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Esta pesquisa investiga o fenômeno 'grokking' em transformadores, descobrindo que o longo atraso na generalização em modelos aritméticos resulta de um gargalo no decodificador. O codificador adquire conhecimento estrutural relevante precocemente, mas o decodificador tem dificuldade em acessá-lo, uma hipótese apoiada por intervenções causais como o transplante de codificadores.

27
RESEARCHarXiv CS.LG·20/04/2026

The Spectral Geometry of Thought: Phase Transitions, Instruction Reversal, Token-Level Dynamics, and Perfect Correctness Prediction in How Transformers Reason

Este artigo de pesquisa revela transições de fase espectrais nos espaços de ativação ocultos de modelos de linguagem grandes durante o raciocínio versus a recuperação de fatos. Uma análise espectral sistemática em 11 modelos e 5 famílias de arquitetura identifica sete fenômenos centrais, incluindo compressão espectral no raciocínio e reversão espectral com ajuste de instrução.

27
RESEARCHarXiv CS.LG·17d atrás

Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding

O Temporal Contrastive Transformer (TCT) é uma nova estrutura de aprendizado de representação desenvolvida para sequências de transações financeiras, visando a detecção de fraudes. Ele utiliza aprendizado contrastivo auto-supervisionado para criar embeddings que capturam padrões comportamentais temporais, demonstrando desempenho preditivo relevante, especialmente em conjunto com features específicas do domínio.

27
RESEARCHarXiv CS.LG·24/04/2026

Absorber LLM: Harnessing Causal Synchronization for Test-Time Training

Transformers enfrentam altos custos computacionais e consumo de memória para sequências longas, enquanto alternativas perdem dependências de longo alcance. Absorber LLM propõe uma sincronização causal auto-supervisionada para absorver contextos históricos nos parâmetros, garantindo que um modelo sem contexto corresponda ao original com contexto total em gerações futuras.

27
RESEARCHarXiv CS.LG·28d atrás

TTCD:Transformer Integrated Temporal Causal Discovery from Non-Stationary Time Series Data

O Framework TTCD (Transformer Integrated Temporal Causal Discovery) é uma abordagem inovadora de ponta a ponta para aprender relações causais contemporâneas e defasadas a partir de dados complexos de séries temporais não estacionárias. Este método supera as limitações das técnicas existentes, integrando atenção temporal e no domínio da frequência, oferecendo uma solução unificada para cenários desafiadores do mundo real.

27
RESEARCHarXiv CS.LG·21d atrás

Forecasting Medium-Horizon Alzheimer's Disease Progression: Residual Gap-Aware Transformers for 24-Month CDR-SB Change from ADNI Clinical and Biomarker Histories

Este artigo propõe um transformador com reconhecimento de lacunas residuais para prever a progressão da doença de Alzheimer em 24 meses, utilizando dados clínicos e biomarcadores do ADNI. A pesquisa analisa a mudança na pontuação CDR-SB, ancorando amostras em visitas de comprometimento cognitivo leve.

27
RESEARCHarXiv CS.LG·28d atrás

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Esta pesquisa analisa três esquemas de quantização de cache KV (KV, KQV, QKQV) e seu impacto na variância do produto interno, especialmente como o QJL em K a infla, amplificado pelo softmax. Descobertas empíricas destacam o desempenho superior do KQV com um orçamento de n=4, uma assimetria K-V incondicional onde QKQV é consistentemente pior que KQV na divergência KL, e cruzamentos dependentes do orçamento para a reconstrução geométrica de K.

27
RESEARCHarXiv CS.LG·29d atrás

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

O Toeplitz MLP Mixer (TMM) é uma nova arquitetura semelhante a transformadores que substitui a atenção por multiplicação de matriz Toeplitz mascarada triangularmente, reduzindo significativamente a complexidade computacional para O(dn log n) de tempo e O(dn) de espaço. Os TMMs demonstram maior eficiência de treinamento e melhor retenção de informações de entrada em comparação com os transformadores tradicionais, apesar de seu design mais simples.

27