Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) é uma nova arquitetura de IA que responde a perguntas eliminando progressivamente impossibilidades, em vez de gerar possibilidades, operando independentemente de LLMs. Ele alcança 88% de precisão, é 95,5x mais rápido e 100x menor que o TinyLlama 1.1B, demonstrando grande eficiência computacional.

AI architecture inference Computational Efficiency sustainable AI

RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Este artigo introduz uma estratégia de "early exit" bidimensional para tarefas de classificação em LLMs, coordenando saídas por camada e por sentença. O método alcança economias computacionais multiplicativas e acelerações de 1.4-2.3x em comparação com abordagens de uma dimensão, sendo eficaz em diversos LLMs para tarefas mais simples.

LLMs Computational Efficiency Inference Optimization

RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.CL·13/04/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND é uma estrutura que adapta modelos autoregressivos de texto para fala (AR-TTS) para operarem com complexidade computacional e de memória constante. Isso é alcançado através de atenção dividida (global e de janela deslizante) e destilação de conhecimento, preservando a qualidade enquanto reduz drasticamente o uso de memória.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency

RESEARCHarXiv CS.LG·14/04/2026

Efficient Matrix Implementation for Rotary Position Embedding

Esta pesquisa propõe RoME, uma reformulação inovadora e computacionalmente eficiente do Rotary Position Embedding (RoPE), um componente crucial em arquiteturas Transformer modernas. Ao substituir operações vetoriais por transformações matriciais unificadas, RoME reduz significativamente a sobrecarga computacional e melhora a utilização de hardware.

Matrix operations Rotary Position Embedding NPU optimization Computational Efficiency

RESEARCHarXiv CS.LG·05/05/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Este trabalho de pesquisa avalia sistematicamente quatro solucionadores de EDO clássicos (Euler, Ponto Médio Explícito, RK4, Dormand-Prince 5(4)) para modelos generativos de Flow Matching, implementando-os do zero em PyTorch. Ele compara quantitativamente sua eficiência em tarefas que vão de distribuições 2D a dígitos MNIST, mostrando que RK4 com 80 avaliações de função alcança qualidade de amostra comparável ao Euler com 200, e observa o enrijecimento do espectro de autovalores Jacobianos perto de t=1.

neural networks machine learning Computational Efficiency ODE Solvers

RESEARCHarXiv CS.LG·27/04/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN é uma nova arquitetura de rede neural que aborda a lentidão das KANs tradicionais, oferecendo complexidade linear e redução de parâmetros. A pesquisa demonstra melhorias significativas na eficiência computacional e redução de parâmetros em datasets como MNIST, Fashion-MNIST e CIFAR-10.

neural networks B-splines deep learning Computational Efficiency

RESEARCHarXiv CS.LG·29d atrás

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

O Toeplitz MLP Mixer (TMM) é uma nova arquitetura semelhante a transformadores que substitui a atenção por multiplicação de matriz Toeplitz mascarada triangularmente, reduzindo significativamente a complexidade computacional para O(dn log n) de tempo e O(dn) de espaço. Os TMMs demonstram maior eficiência de treinamento e melhor retenção de informações de entrada em comparação com os transformadores tradicionais, apesar de seu design mais simples.

neural networks AI architecture Computational Efficiency sequence models

RESEARCHarXiv CS.AI·21d atrás

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Este trabalho propõe TTE-Flash, um método para acelerar representações multimodais baseadas em raciocínio, substituindo o raciocínio explícito de Cadeia de Pensamento (CoT) por tokens de pensamento latentes. Ele busca alcançar representações de alto desempenho e sensíveis ao raciocínio com um custo de inferência constante.

neural networks multimodal AI machine learning Computational Efficiency

RESEARCHarXiv CS.AI·21d atrás

PRISMat: Policy-Driven, Permutation-Invariant Autoregressive Material Generation

O artigo apresenta o PRISMat, um modelo econômico e invariante à permutação para a rápida identificação de materiais candidatos. Ele resolve as ineficiências dos grandes modelos de linguagem na geração de materiais, oferecendo uma alternativa mais rápida e barata para filtrar materiais.

Materials Science AI models machine learning Computational Efficiency