← heapsort-ai

Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) ist eine neuartige KI-Architektur, die Fragen durch schrittweises Eliminieren von Unmöglichkeiten beantwortet, anstatt Möglichkeiten zu generieren, und unabhängig von LLMs arbeitet. Es erreicht 88% Genauigkeit, ist 95,5-mal schneller und 100-mal kleiner als TinyLlama 1.1B, was eine erhebliche Recheneffizienz demonstriert.

49
RESEARCHarXiv CS.LG·4/6/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·4/13/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND führt ein Framework ein, das vortrainierte autoregressive Text-zu-Sprache (AR-TTS)-Modelle an eine konstante Rechen- und Speicherkomplexität anpasst. Dies gelingt durch die Trennung der Attention in globale und lokale Sliding-Window-Mechanismen, den Einsatz von Curriculum Learning und die Nutzung von Wissensdestillation, um eine hochwertige Sprachsynthese bei erheblicher Reduzierung des KV-Cache-Speichers zu gewährleisten.

27
RESEARCHarXiv CS.LG·4/14/2026

Efficient Matrix Implementation for Rotary Position Embedding

Diese Forschung stellt RoME vor, eine neuartige und recheneffiziente Neufassung von Rotary Position Embedding (RoPE), einem Kernbestandteil moderner Transformer-Architekturen. Durch das Ersetzen von Operationen auf Vektorebene durch vereinheitlichte Matrixtransformationen reduziert RoME den Rechenaufwand erheblich und verbessert die Hardwareauslastung.

27
RESEARCHarXiv CS.LG·5/5/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Diese Forschungsarbeit benchmarkt systematisch vier klassische ODE-Löser (Euler, Expliziter Mittelpunkt, RK4, Dormand-Prince 5(4)) für Flow Matching Generative Modelle, implementiert sie von Grund auf in PyTorch. Sie vergleicht quantitativ deren Effizienz bei Aufgaben von 2D-Verteilungen bis zu MNIST-Ziffern und zeigt, dass RK4 mit 80 Funktionsauswertungen eine Probenqualität erreicht, die mit Euler bei 200 vergleichbar ist, und beobachtet eine starke Versteifung des Jacobi-Eigenwertspektrums nahe t=1.

27
RESEARCHarXiv CS.LG·vor 29T

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Der Toeplitz MLP Mixer (TMM) ist eine neue transformatorähnliche Architektur, die die Aufmerksamkeit durch dreiecksmaskierte Toeplitz-Matrixmultiplikation ersetzt und die Rechenkomplexität erheblich auf O(dn log n) Zeit und O(dn) Speicher reduziert. TMMs zeigen eine überlegene Trainingseffizienz und eine bessere Beibehaltung von Eingabeinformationen im Vergleich zu herkömmlichen Transformatoren, trotz ihres einfacheren Designs.

27
RESEARCHarXiv CS.AI·vor 21T

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Diese Arbeit schlägt TTE-Flash vor, eine Methode zur Beschleunigung von reasoning-basierten multimodalen Repräsentationen, indem explizites Chain-of-Thought (CoT) durch latente Denk-Token ersetzt wird. Ziel ist es, hochleistungsfähige, reasoning-bewusste Repräsentationen zu konstanten Inferenzkosten zu erreichen.

27