← heapsort-ai

Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·22/4/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) es una nueva arquitectura de IA que responde preguntas eliminando progresivamente imposibilidades en lugar de generar posibilidades, operando independientemente de los LLM. Logra un 88% de precisión, es 95.5 veces más rápido y 100 veces más pequeño que TinyLlama 1.1B, demostrando una eficiencia computacional significativa.

49
RESEARCHarXiv CS.LG·6/4/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·13/4/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND es un marco que adapta modelos autoregresivos de texto a voz (AR-TTS) para operar con complejidad computacional y de memoria constante. Lo logra separando la atención en mecanismos globales y de ventana deslizante local, y utilizando destilación de conocimiento para mantener la alta fidelidad de síntesis con una reducción significativa de memoria.

27
RESEARCHarXiv CS.LG·14/4/2026

Efficient Matrix Implementation for Rotary Position Embedding

Esta investigación propone RoME, una reformulación novedosa y computacionalmente eficiente de Rotary Position Embedding (RoPE), un componente clave en las arquitecturas Transformer modernas. Al reemplazar las operaciones a nivel vectorial con transformaciones matriciales unificadas, RoME reduce significativamente la sobrecarga computacional y mejora la utilización del hardware.

27
RESEARCHarXiv CS.LG·5/5/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Este trabajo de investigación evalúa sistemáticamente cuatro solucionadores de EDO clásicos (Euler, Punto Medio Explícito, RK4, Dormand-Prince 5(4)) para modelos generativos de Flow Matching, implementándolos desde cero en PyTorch. Compara cuantitativamente su eficiencia en tareas que van desde distribuciones 2D hasta dígitos MNIST, encontrando que RK4 con 80 evaluaciones de función logra una calidad de muestra comparable a Euler con 200, y observa el endurecimiento del espectro de valores propios jacobianos cerca de t=1.

27
RESEARCHarXiv CS.LG·11/5/2026

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

El Toeplitz MLP Mixer (TMM) es una nueva arquitectura similar a los transformadores que reemplaza la atención por una multiplicación de matriz de Toeplitz con máscara triangular, reduciendo significativamente la complejidad computacional a O(dn log n) de tiempo y O(dn) de espacio. Los TMM demuestran una eficiencia de entrenamiento superior y una mejor retención de información de entrada en comparación con los transformadores tradicionales, a pesar de su diseño más simple.

27
RESEARCHarXiv CS.AI·hace 22d

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Este trabajo propone TTE-Flash, un método para acelerar representaciones multimodales basadas en razonamiento, reemplazando el razonamiento explícito de Cadena de Pensamiento (CoT) con tokens de pensamiento latentes. Busca lograr representaciones de alto rendimiento y conscientes del razonamiento con un coste de inferencia constante.

27