← heapsort-ai

Computational Efficiency

10 items

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) est une nouvelle architecture d'IA qui répond aux questions en éliminant progressivement les impossibilités plutôt qu'en générant des possibilités, fonctionnant indépendamment des LLM. Il atteint 88% de précision, est 95,5 fois plus rapide et 100 fois plus petit que TinyLlama 1.1B, démontrant une efficacité de calcul significative.

49
RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Cet article introduit une stratégie bidimensionnelle de « early exit » pour les tâches de classification des LLM, coordonnant la sortie par couche et par phrase. Cette méthode permet des économies de calcul multiplicatives et des accélérations de 1.4 à 2.3 fois par rapport à l'approche par couche seule, applicable à divers LLM pour des tâches plus simples.

29
RESEARCHarXiv CS.LG·06/04/2026

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

28
RESEARCHarXiv CS.CL·13/04/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND est un framework qui adapte les modèles AR-TTS pré-entraînés pour fonctionner avec une complexité computationnelle et de mémoire constante. Il sépare l'attention en mécanismes globaux et de fenêtre glissante locale, utilisant la distillation de connaissances pour maintenir une synthèse de haute fidélité tout en réduisant considérablement la mémoire cache KV.

27
RESEARCHarXiv CS.LG·14/04/2026

Efficient Matrix Implementation for Rotary Position Embedding

Cette recherche propose RoME, une reformulation nouvelle et efficace sur le plan computationnel du Rotary Position Embedding (RoPE), un composant essentiel des architectures Transformer modernes. En remplaçant les opérations vectorielles par des transformations matricielles unifiées, RoME réduit considérablement la surcharge computationnelle et améliore l'utilisation du matériel.

27
RESEARCHarXiv CS.LG·05/05/2026

From Euler to Dormand-Prince: ODE Solvers for Flow Matching Generative Models

Cet article de recherche évalue systématiquement quatre solveurs d'EDO classiques (Euler, Point Milieu Explicite, RK4, Dormand-Prince 5(4)) pour les modèles génératifs de Flow Matching, en les implémentant à partir de zéro dans PyTorch. Il compare quantitativement leur efficacité sur des tâches allant des distributions 2D aux chiffres MNIST, montrant que RK4 avec 80 évaluations de fonction atteint une qualité d'échantillon comparable à Euler avec 200, et observe le raidissement du spectre des valeurs propres jacobiennes près de t=1.

27
RESEARCHarXiv CS.LG·27/04/2026

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN est une nouvelle architecture de réseau neuronal qui résout la lenteur des KANs traditionnels en offrant une complexité linéaire et une réduction des paramètres. La recherche démontre des améliorations de l'efficacité computationnelle et de la réduction des paramètres sur des ensembles de données comme MNIST, Fashion-MNIST et CIFAR-10.

27
RESEARCHarXiv CS.LG·il y a 29j

Toeplitz MLP Mixers are Low Complexity, Information-Rich Sequence Models

Le Toeplitz MLP Mixer (TMM) est une nouvelle architecture de type transformateur qui remplace l'attention par une multiplication de matrice de Toeplitz masquée triangulairement, réduisant significativement la complexité computationnelle à O(dn log n) en temps et O(dn) en espace. Les TMM démontrent une efficacité d'entraînement supérieure et une meilleure rétention d'informations d'entrée par rapport aux transformateurs traditionnels, malgré leur conception plus simple.

27
RESEARCHarXiv CS.AI·il y a 21j

TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens

Ce travail propose TTE-Flash, une méthode pour accélérer les représentations multimodales basées sur le raisonnement en remplaçant le raisonnement explicite de la Chaîne de Pensée (CoT) par des jetons de pensée latents. Il vise à obtenir des représentations de haute performance et sensibles au raisonnement à un coût d'inférence constant.

27