Transformers

56 items

RESEARCHarXiv CS.LG·1d atrás

WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers

O artigo apresenta o WAV v1, um método leve de roteamento residual multi-resolução para Transformers apenas com decodificador. Ele melhora as conexões residuais padrão ao aumentar cada bloco com bases de detalhe direcionais que contrastam as atualizações de atenção e MLP, e as dinâmicas de subcamadas iniciais e finais.

Residual Connections neural networks deep learning Model Architecture

RESEARCH↑ trendingReddit r/MachineLearning·27d atrás

Trained transformer-based chess models to play like humans (including thinking time) [P]

Um desenvolvedor treinou modelos de deep learning baseados em transformers para jogar xadrez como humanos em diversas categorias de rating, incluindo a previsão do tempo de pensamento. Os modelos foram treinados com dados do Lichess e alcançaram precisão comparável ao MAIA-3, apesar de seu pequeno tamanho.

AI models deep learning chess AI model training

ARTICLE↑ trendingReddit r/MachineLearning·24/04/2026

Nanochat vs Llama for training from scratch? [P]

O usuário está treinando um modelo de IA do zero e busca conselhos sobre a melhor arquitetura, considerando mudar do Nanochat (que carece de compatibilidade com Transformers) para a arquitetura Llama. O objetivo é um projeto de código aberto com um novo e maior conjunto de dados, apesar das vantagens do Nanochat.

AI architecture open-source AI AI training LLM

RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Esta publicação detalha descobertas empíricas da competição Parameter Golf da OpenAI, explicando por que os Modelos de Espaço de Estado (SSMs) estão estruturalmente em desvantagem em relação aos transformers em regimes de treino com restrição de parâmetros e tempo. Os problemas incluem pior compressão dos pesos in_proj dos SSMs e reversões de ganhos arquitetônicos em vocabulários maiores, além de insights de experimentos com kernels Triton Mamba-3.

SSMs AI models Performance optimization Neural network training

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos lançou ResBM, uma nova arquitetura de transformador para treinamento pipeline-paralelo de baixa largura de banda. Ela alcança uma compressão de ativação de 128x, mantendo a convergência sem perdas significativas.

distributed training machine learning architecture model optimization Transformers

RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

O artigo introduz SATFormer, uma nova variante de Transformer que melhora a eficiência ao permitir que os "heads" reacessem seletivamente representações iniciais, em vez de copiá-las uniformemente. Esse mecanismo de "gating" dependente do contexto otimiza a reutilização de informações, oferecendo um melhor equilíbrio entre eficiência e desempenho.

AI architecture deep learning efficiency Transformers

Transformers with Selective Access to Early Representations [R]

RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

Thinking Deeper, Not Longer: Depth-Recurrent Transformers for Compositional Generalization [R]

Este conteúdo discute um artigo de pesquisa sobre Transformers Recorrentes em Profundidade, destacando suas descobertas sobre generalização composicional e fora da distribuição. Ele explora como a supervisão de etapas intermediárias pode prejudicar o raciocínio genuíno em modelos de IA, tornando-os excessivamente dependentes de heurísticas estatísticas, um conceito estendido a modelos de base e à intuição humana.

OOD Generalization Compositional Generalization AI Reasoning Intermediate Supervision

ARTICLE↑ trendingReddit r/MachineLearning·25/04/2026

How Visual-Language-Action (VLA) Models Work [D]

Este artigo oferece uma análise técnica aprofundada de como os modelos Visual-Language-Action (VLA) funcionam, detalhando sua capacidade de mapear entradas de visão e linguagem em ações robóticas. Ele explora as principais abordagens de decodificação de ações, como ações autorregressivas tokenizadas, cabeças de ação baseadas em difusão e políticas de correspondência de fluxo.

machine learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

ARTICLE↑ trendingReddit r/LocalLLaMA·01/05/2026

By when do you think will TurboQuant get a proper release and be adopted by everyone

O usuário pergunta sobre a data de lançamento e a adoção generalizada do TurboQuant, destacando os grandes ganhos de desempenho ao usar uma configuração assimétrica para K e V. A discussão sugere uma otimização técnica em modelos de inteligência artificial.

AI models machine learning Transformers

RESEARCHarXiv CS.LG·5d atrás

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Este estudo avalia sistematicamente variantes da formulação de atenção QKV (Query, Key, Value) em Transformers, incluindo projeções de chave-valor, query-chave e únicas. Experimentos em tarefas sintéticas, de visão e modelagem de linguagem mostram que essas formulações alternativas performam tão bem ou melhor que Transformers QKV padrão, com a partilha Q-K=V reduzindo significativamente o cache KV na modelagem de linguagem.

QKV computer vision attention mechanisms Language modeling

RESEARCHarXiv CS.LG·22/04/2026

Handling and Interpreting Missing Modalities in Patient Clinical Trajectories via Autoregressive Sequence Modeling

Este trabalho aborda o desafio de modalidades ausentes em dados clínicos multimodais para diagnóstico, reformulando-o como uma tarefa de modelagem de sequência autorregressiva. Utiliza decodificadores causais de LLMs e uma pré-treinamento contrastivo consciente da ausência para superar as linhas de base em benchmarks como MIMIC-IV e eICU.

multimodal AI machine learning large language models healthcare AI

RESEARCHarXiv CS.LG·15/04/2026

Subcritical Signal Propagation at Initialization in Normalization-Free Transformers

Este artigo investiga a propagação de sinal na inicialização de transformers usando a norma jacobiana parcial média (APJN) para medir a amplificação do gradiente. A teoria estende a análise de APJN, prevê o comportamento assintótico da APJN em grande profundidade e explica a subcriticidade de arquiteturas sem normalização como Dynamic Tanh e Dynamic erf transformers.

Normalization-Free Transformers Gradient Amplification Signal Propagation Initialization

RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabalho aborda o alto consumo de memória do cache Key-Value (KV) em modelos transformer, propondo uma otimização através da dimensão de profundidade. A pesquisa introduz um método para compartilhamento de cache entre camadas, demonstrando que o descarte do cache de uma camada pode ser eficiente sem perda de informação e sugere um treinamento com atenção aleatória entre camadas.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·28/04/2026

The Spectral Lifecycle of Transformer Training: Transient Compression Waves, Persistent Spectral Gradients, and the Q/K--V Asymmetry

Este estudo sistemático da pré-treinamento de transformadores revela três fenômenos-chave nos espectros de valores singulares das matrizes de peso, incluindo ondas de compressão transitórias e gradientes espectrais persistentes. A pesquisa também identifica uma assimetria funcional entre as projeções Q/K e V, onde Q/K impulsiona a dinâmica dependente da profundidade.

neural networks deep learning Model Analysis training dynamics

RESEARCHarXiv CS.LG·8d atrás

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Este artigo investiga o "alinhamento enganoso" em LLMs, onde os modelos produzem saídas falsas intencionalmente enquanto mantêm representações internas precisas, um desafio central na segurança da IA. Os pesquisadores usaram um paradigma multi-modelo com cinco arquiteturas de transformadores para detectar desonestidade sintética com alta precisão usando sondas lineares.

LLMs machine learning deception AI safety

RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

O eOptShrinkQ é um pipeline de compressão de duas fases para cache KV em cabeças de atenção de transformadores. Ele utiliza encolhimento de valor singular ideal e quantização escalar por vetor, fundamentado na teoria de matrizes aleatórias, para obter compressão quase sem perdas e melhorar a reconstrução.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·28d atrás

Multi-Head Attention: Collaborate Instead of Concatenate

Este conteúdo explora o mecanismo de atenção multi-cabeça em modelos de IA, focando na ideia de colaboração em vez de concatenação. Ele provavelmente discute uma abordagem alternativa para melhorar a eficiência ou o desempenho da atenção.

deep learning Attention Mechanism machine learning AI

RESEARCHarXiv CS.LG·14/04/2026

The Diffusion-Attention Connection

Esta pesquisa unifica Transformers, mapas de difusão e Laplacianos magnéticos, mostrando-os como diferentes regimes de uma única geometria de Markov. O estudo define uma "bidivergência" QK para conectar atenção e difusão, organizando suas dinâmicas com produto de especialistas e pontes de Schrödinger.

Diffusion Models Deep Learning Theory Markov Geometry attention mechanisms

DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Este artigo explica por que os valores de autoatenção substituem as codificações posicionais originais, integrando informações contextuais de todas as palavras para esclarecer relações. Em seguida, introduz o empilhamento de múltiplas camadas de autoatenção, cada uma com pesos únicos, para capturar relações linguísticas mais complexas em frases e parágrafos.

neural networks Self-Attention deep learning NLP

ARTICLEDEV.to AI·29d atrás

How Large Language Models Work — From Transformers to Conversational AI

Modelos de Linguagem Grandes (LLMs) operam como redes neurais que aprendem padrões em texto para gerar conteúdo, prevendo o próximo token. Essa funcionalidade poderosa é impulsionada por grandes volumes de dados, arquiteturas profundas e atenção baseada em Transformers.

AI Generative AI LLM Transformers