Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·4/22/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) ist eine neuartige KI-Architektur, die Fragen durch schrittweises Eliminieren von Unmöglichkeiten beantwortet, anstatt Möglichkeiten zu generieren, und unabhängig von LLMs arbeitet. Es erreicht 88% Genauigkeit, ist 95,5-mal schneller und 100-mal kleiner als TinyLlama 1.1B, was eine erhebliche Recheneffizienz demonstriert.

AI architecture inference Computational Efficiency sustainable AI

RESEARCHarXiv CS.CL·4/22/2026

Two-dimensional early exit optimisation of LLM inference

Dieses Papier stellt eine zweidimensionale Early-Exit-Strategie für Klassifizierungsaufgaben in LLMs vor, die schicht- und satzweise Beendigung koordiniert. Die Methode erzielt multiplikative Rechenzeitersparnisse und Beschleunigungen von 1,4-2,3x gegenüber optimalem schichtweisem Early Exit, besonders bei einfacheren Aufgaben mit verschiedenen LLMs.

LLMs Computational Efficiency Inference Optimization

RESEARCHarXiv CS.LG·4/6/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

Diffusion Models language models Computational Efficiency denoising

RESEARCHarXiv CS.CL·4/13/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND führt ein Framework ein, das vortrainierte autoregressive Text-zu-Sprache (AR-TTS)-Modelle an eine konstante Rechen- und Speicherkomplexität anpasst. Dies gelingt durch die Trennung der Attention in globale und lokale Sliding-Window-Mechanismen, den Einsatz von Curriculum Learning und die Nutzung von Wissensdestillation, um eine hochwertige Sprachsynthese bei erheblicher Reduzierung des KV-Cache-Speichers zu gewährleisten.

Knowledge Distillation Autoregressive Text-to-Speech Attention Mechanism Computational Efficiency

RESEARCHarXiv CS.LG·4/14/2026

Efficient Matrix Implementation for Rotary Position Embedding

Diese Forschung stellt RoME vor, eine neuartige und recheneffiziente Neufassung von Rotary Position Embedding (RoPE), einem Kernbestandteil moderner Transformer-Architekturen. Durch das Ersetzen von Operationen auf Vektorebene durch vereinheitlichte Matrixtransformationen reduziert RoME den Rechenaufwand erheblich und verbessert die Hardwareauslastung.

Matrix operations Rotary Position Embedding NPU optimization Computational Efficiency

RESEARCHarXiv CS.LG·5/5/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Diese Forschungsarbeit benchmarkt systematisch vier klassische ODE-Löser (Euler, Expliziter Mittelpunkt, RK4, Dormand-Prince 5(4)) für Flow Matching Generative Modelle, implementiert sie von Grund auf in PyTorch. Sie vergleicht quantitativ deren Effizienz bei Aufgaben von 2D-Verteilungen bis zu MNIST-Ziffern und zeigt, dass RK4 mit 80 Funktionsauswertungen eine Probenqualität erreicht, die mit Euler bei 200 vergleichbar ist, und beobachtet eine starke Versteifung des Jacobi-Eigenwertspektrums nahe t=1.

neural networks machine learning Computational Efficiency ODE Solvers

RESEARCHarXiv CS.LG·4/27/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN ist eine neuartige neuronale Netzwerkarchitektur, die die Langsamkeit herkömmlicher KANs überwindet, indem sie lineare Komplexität und Parameterreduktion bietet. Die Studie zeigt signifikante Verbesserungen der Recheneffizienz und Parameterreduktion bei Datensätzen wie MNIST, Fashion-MNIST und CIFAR-10.

neural networks B-splines deep learning Computational Efficiency

RESEARCHarXiv CS.LG·vor 29T

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Der Toeplitz MLP Mixer (TMM) ist eine neue transformatorähnliche Architektur, die die Aufmerksamkeit durch dreiecksmaskierte Toeplitz-Matrixmultiplikation ersetzt und die Rechenkomplexität erheblich auf O(dn log n) Zeit und O(dn) Speicher reduziert. TMMs zeigen eine überlegene Trainingseffizienz und eine bessere Beibehaltung von Eingabeinformationen im Vergleich zu herkömmlichen Transformatoren, trotz ihres einfacheren Designs.

neural networks AI architecture Computational Efficiency sequence models

RESEARCHarXiv CS.AI·vor 21T

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Diese Arbeit schlägt TTE-Flash vor, eine Methode zur Beschleunigung von reasoning-basierten multimodalen Repräsentationen, indem explizites Chain-of-Thought (CoT) durch latente Denk-Token ersetzt wird. Ziel ist es, hochleistungsfähige, reasoning-bewusste Repräsentationen zu konstanten Inferenzkosten zu erreichen.

neural networks multimodal AI machine learning Computational Efficiency

RESEARCHarXiv CS.AI·vor 21T

PRISMat: Policy-Driven, Permutation-Invariant Autoregressive Material Generation

Dieses Papier stellt PRISMat vor, ein kosteneffizientes, permutationsinvariantes Modell zur schnellen Identifizierung von Materialkandidaten. Es behebt die Ineffizienzen großer Sprachmodelle bei der Materialerzeugung, indem es eine schnellere und günstigere Alternative zur Filterung von Materialien bietet.

Materials Science AI models machine learning Computational Efficiency