Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·22/4/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) es una nueva arquitectura de IA que responde preguntas eliminando progresivamente imposibilidades en lugar de generar posibilidades, operando independientemente de los LLM. Logra un 88% de precisión, es 95.5 veces más rápido y 100 veces más pequeño que TinyLlama 1.1B, demostrando una eficiencia computacional significativa.

AI architecture inference Computational Efficiency sustainable AI

RESEARCHarXiv CS.CL·22/4/2026

Two-dimensional early exit optimisation of LLM inference

Este artículo introduce una estrategia bidimensional de "early exit" para tareas de clasificación en LLMs, coordinando la salida por capa y por sentencia. El método logra ahorros computacionales multiplicativos y aceleraciones de 1.4-2.3x sobre el "early exit" por capa óptimo, aplicable a varios LLMs de última generación en tareas más simples.

LLMs Computational Efficiency Inference Optimization

RESEARCHarXiv CS.LG·6/4/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.CL·13/4/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND es un marco que adapta modelos autoregresivos de texto a voz (AR-TTS) para operar con complejidad computacional y de memoria constante. Lo logra separando la atención en mecanismos globales y de ventana deslizante local, y utilizando destilación de conocimiento para mantener la alta fidelidad de síntesis con una reducción significativa de memoria.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency

RESEARCHarXiv CS.LG·14/4/2026

Efficient Matrix Implementation for Rotary Position Embedding

Esta investigación propone RoME, una reformulación novedosa y computacionalmente eficiente de Rotary Position Embedding (RoPE), un componente clave en las arquitecturas Transformer modernas. Al reemplazar las operaciones a nivel vectorial con transformaciones matriciales unificadas, RoME reduce significativamente la sobrecarga computacional y mejora la utilización del hardware.

Matrix operations Rotary Position Embedding NPU optimization Computational Efficiency

RESEARCHarXiv CS.LG·5/5/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Este trabajo de investigación evalúa sistemáticamente cuatro solucionadores de EDO clásicos (Euler, Punto Medio Explícito, RK4, Dormand-Prince 5(4)) para modelos generativos de Flow Matching, implementándolos desde cero en PyTorch. Compara cuantitativamente su eficiencia en tareas que van desde distribuciones 2D hasta dígitos MNIST, encontrando que RK4 con 80 evaluaciones de función logra una calidad de muestra comparable a Euler con 200, y observa el endurecimiento del espectro de valores propios jacobianos cerca de t=1.

neural networks machine learning Computational Efficiency ODE Solvers

RESEARCHarXiv CS.LG·27/4/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN es una nueva arquitectura de red neuronal que resuelve la lentitud de las KANs tradicionales, presentando complejidad lineal y reducción de parámetros. El trabajo demuestra mejoras significativas en la eficiencia computacional y la reducción de parámetros en conjuntos de datos como MNIST, Fashion-MNIST y CIFAR-10.

neural networks B-splines deep learning Computational Efficiency

RESEARCHarXiv CS.LG·11/5/2026

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

El Toeplitz MLP Mixer (TMM) es una nueva arquitectura similar a los transformadores que reemplaza la atención por una multiplicación de matriz de Toeplitz con máscara triangular, reduciendo significativamente la complejidad computacional a O(dn log n) de tiempo y O(dn) de espacio. Los TMM demuestran una eficiencia de entrenamiento superior y una mejor retención de información de entrada en comparación con los transformadores tradicionales, a pesar de su diseño más simple.

neural networks AI architecture Computational Efficiency sequence models

RESEARCHarXiv CS.AI·hace 22d

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Este trabajo propone TTE-Flash, un método para acelerar representaciones multimodales basadas en razonamiento, reemplazando el razonamiento explícito de Cadena de Pensamiento (CoT) con tokens de pensamiento latentes. Busca lograr representaciones de alto rendimiento y conscientes del razonamiento con un coste de inferencia constante.

neural networks multimodal AI machine learning Computational Efficiency

RESEARCHarXiv CS.AI·hace 22d

PRISMat: Policy-Driven, Permutation-Invariant Autoregressive Material Generation

Este artículo presenta PRISMat, un modelo rentable e invariante a la permutación para la rápida identificación de materiales candidatos. Aborda las ineficiencias de los grandes modelos de lenguaje en la generación de materiales, ofreciendo una alternativa más rápida y económica para filtrarlos.

Materials Science AI models machine learning Computational Efficiency