← heapsort-ai

Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) é uma nova arquitetura de IA que responde a perguntas eliminando progressivamente impossibilidades, em vez de gerar possibilidades, operando independentemente de LLMs. Ele alcança 88% de precisão, é 95,5x mais rápido e 100x menor que o TinyLlama 1.1B, demonstrando grande eficiência computacional.

49
RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·13/04/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND é uma estrutura que adapta modelos autoregressivos de texto para fala (AR-TTS) para operarem com complexidade computacional e de memória constante. Isso é alcançado através de atenção dividida (global e de janela deslizante) e destilação de conhecimento, preservando a qualidade enquanto reduz drasticamente o uso de memória.

27
RESEARCHarXiv CS.LG·14/04/2026

Efficient Matrix Implementation for Rotary Position Embedding

Esta pesquisa propõe RoME, uma reformulação inovadora e computacionalmente eficiente do Rotary Position Embedding (RoPE), um componente crucial em arquiteturas Transformer modernas. Ao substituir operações vetoriais por transformações matriciais unificadas, RoME reduz significativamente a sobrecarga computacional e melhora a utilização de hardware.

27
RESEARCHarXiv CS.LG·05/05/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Este trabalho de pesquisa avalia sistematicamente quatro solucionadores de EDO clássicos (Euler, Ponto Médio Explícito, RK4, Dormand-Prince 5(4)) para modelos generativos de Flow Matching, implementando-os do zero em PyTorch. Ele compara quantitativamente sua eficiência em tarefas que vão de distribuições 2D a dígitos MNIST, mostrando que RK4 com 80 avaliações de função alcança qualidade de amostra comparável ao Euler com 200, e observa o enrijecimento do espectro de autovalores Jacobianos perto de t=1.

27
RESEARCHarXiv CS.LG·29d atrás

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

O Toeplitz MLP Mixer (TMM) é uma nova arquitetura semelhante a transformadores que substitui a atenção por multiplicação de matriz Toeplitz mascarada triangularmente, reduzindo significativamente a complexidade computacional para O(dn log n) de tempo e O(dn) de espaço. Os TMMs demonstram maior eficiência de treinamento e melhor retenção de informações de entrada em comparação com os transformadores tradicionais, apesar de seu design mais simples.

27
RESEARCHarXiv CS.AI·21d atrás

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Este trabalho propõe TTE-Flash, um método para acelerar representações multimodais baseadas em raciocínio, substituindo o raciocínio explícito de Cadeia de Pensamento (CoT) por tokens de pensamento latentes. Ele busca alcançar representações de alto desempenho e sensíveis ao raciocínio com um custo de inferência constante.

27