← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.LG·1d atrás

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

O artigo apresenta o WAV v1, um método leve de roteamento residual multi-resolução para Transformers apenas com decodificador. Ele melhora as conexões residuais padrão ao aumentar cada bloco com bases de detalhe direcionais que contrastam as atualizações de atenção e MLP, e as dinâmicas de subcamadas iniciais e finais.

60
RESEARCH↑ trendingReddit r/MachineLearning·27d atrás

Trained transformer-based chess models to play like humans (including thinking time) [P]

Um desenvolvedor treinou modelos de deep learning baseados em transformers para jogar xadrez como humanos em diversas categorias de rating, incluindo a previsão do tempo de pensamento. Os modelos foram treinados com dados do Lichess e alcançaram precisão comparável ao MAIA-3, apesar de seu pequeno tamanho.

44
ARTICLE↑ trendingReddit r/MachineLearning·24/04/2026

Nanochat vs Llama for training from scratch? [P]

O usuário está treinando um modelo de IA do zero e busca conselhos sobre a melhor arquitetura, considerando mudar do Nanochat (que carece de compatibilidade com Transformers) para a arquitetura Llama. O objetivo é um projeto de código aberto com um novo e maior conjunto de dados, apesar das vantagens do Nanochat.

42
RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Esta publicação detalha descobertas empíricas da competição Parameter Golf da OpenAI, explicando por que os Modelos de Espaço de Estado (SSMs) estão estruturalmente em desvantagem em relação aos transformers em regimes de treino com restrição de parâmetros e tempo. Os problemas incluem pior compressão dos pesos in_proj dos SSMs e reversões de ganhos arquitetônicos em vocabulários maiores, além de insights de experimentos com kernels Triton Mamba-3.

42
RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

O artigo introduz SATFormer, uma nova variante de Transformer que melhora a eficiência ao permitir que os "heads" reacessem seletivamente representações iniciais, em vez de copiá-las uniformemente. Esse mecanismo de "gating" dependente do contexto otimiza a reutilização de informações, oferecendo um melhor equilíbrio entre eficiência e desempenho.

Transformers with Selective Access to Early Representations [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Este conteúdo discute um artigo de pesquisa sobre Transformers Recorrentes em Profundidade, destacando suas descobertas sobre generalização composicional e fora da distribuição. Ele explora como a supervisão de etapas intermediárias pode prejudicar o raciocínio genuíno em modelos de IA, tornando-os excessivamente dependentes de heurísticas estatísticas, um conceito estendido a modelos de base e à intuição humana.

42
ARTICLE↑ trendingReddit r/MachineLearning·25/04/2026

How Visual-Language-Action (VLA) Models Work [D]

Este artigo oferece uma análise técnica aprofundada de como os modelos Visual-Language-Action (VLA) funcionam, detalhando sua capacidade de mapear entradas de visão e linguagem em ações robóticas. Ele explora as principais abordagens de decodificação de ações, como ações autorregressivas tokenizadas, cabeças de ação baseadas em difusão e políticas de correspondência de fluxo.

How Visual-Language-Action (VLA) Models Work [D]
42
RESEARCHarXiv CS.LG·5d atrás

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Este estudo avalia sistematicamente variantes da formulação de atenção QKV (Query, Key, Value) em Transformers, incluindo projeções de chave-valor, query-chave e únicas. Experimentos em tarefas sintéticas, de visão e modelagem de linguagem mostram que essas formulações alternativas performam tão bem ou melhor que Transformers QKV padrão, com a partilha Q-K=V reduzindo significativamente o cache KV na modelagem de linguagem.

29
RESEARCHarXiv CS.LG·22/04/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Este trabalho aborda o desafio de modalidades ausentes em dados clínicos multimodais para diagnóstico, reformulando-o como uma tarefa de modelagem de sequência autorregressiva. Utiliza decodificadores causais de LLMs e uma pré-treinamento contrastivo consciente da ausência para superar as linhas de base em benchmarks como MIMIC-IV e eICU.

29
RESEARCHarXiv CS.LG·15/04/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Este artigo investiga a propagação de sinal na inicialização de transformers usando a norma jacobiana parcial média (APJN) para medir a amplificação do gradiente. A teoria estende a análise de APJN, prevê o comportamento assintótico da APJN em grande profundidade e explica a subcriticidade de arquiteturas sem normalização como Dynamic Tanh e Dynamic erf transformers.

29
RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabalho aborda o alto consumo de memória do cache Key-Value (KV) em modelos transformer, propondo uma otimização através da dimensão de profundidade. A pesquisa introduz um método para compartilhamento de cache entre camadas, demonstrando que o descarte do cache de uma camada pode ser eficiente sem perda de informação e sugere um treinamento com atenção aleatória entre camadas.

29
RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Este estudo sistemático da pré-treinamento de transformadores revela três fenômenos-chave nos espectros de valores singulares das matrizes de peso, incluindo ondas de compressão transitórias e gradientes espectrais persistentes. A pesquisa também identifica uma assimetria funcional entre as projeções Q/K e V, onde Q/K impulsiona a dinâmica dependente da profundidade.

29
RESEARCHarXiv CS.LG·8d atrás

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este artigo investiga o "alinhamento enganoso" em LLMs, onde os modelos produzem saídas falsas intencionalmente enquanto mantêm representações internas precisas, um desafio central na segurança da IA. Os pesquisadores usaram um paradigma multi-modelo com cinco arquiteturas de transformadores para detectar desonestidade sintética com alta precisão usando sondas lineares.

29
RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

O eOptShrinkQ é um pipeline de compressão de duas fases para cache KV em cabeças de atenção de transformadores. Ele utiliza encolhimento de valor singular ideal e quantização escalar por vetor, fundamentado na teoria de matrizes aleatórias, para obter compressão quase sem perdas e melhorar a reconstrução.

29
DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Este artigo explica por que os valores de autoatenção substituem as codificações posicionais originais, integrando informações contextuais de todas as palavras para esclarecer relações. Em seguida, introduz o empilhamento de múltiplas camadas de autoatenção, cada uma com pesos únicos, para capturar relações linguísticas mais complexas em frases e parágrafos.

28