← heapsort-ai

Performance optimization

44 items

RESEARCHarXiv CS.LG·il y a 19h

Enabling KV Caching of Shared Prefix for Diffusion Language Models

L'article introduit "bicache", la première technique de mise en cache KV pour les préfixes partagés dans les modèles de langage de diffusion (DLMs), résolvant les défis où les méthodes de mise en cache LLM existantes échouent en raison de l'attention bidirectionnelle des DLMs. Cette nouvelle approche vise à permettre un service DLM à haut débit en exploitant les observations sur la stabilité des KVs de préfixes partagés dans les couches peu profondes.

54
RESEARCH↑ trendingReddit r/MachineLearning·10/04/2026

[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]

Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 26j

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Une étude exhaustive sur TurboQuant compare ses variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) avec FP8 pour la quantification du cache KV. FP8 est recommandé par défaut, offrant une capacité 2x avec une perte de précision négligeable et de bonnes performances. Les variantes TurboQuant présentent des avantages limités ou une dégradation significative de la précision et des performances, 4bit-nc étant une option pour les scénarios contraints par la mémoire.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43
NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Cette publication détaille les découvertes empiriques de la compétition Parameter Golf d'OpenAI, expliquant pourquoi les Modèles d'Espace d'État (SSMs) sont structurellement désavantagés par rapport aux transformeurs dans les régimes d'entraînement contraints par les paramètres et le temps. Les problèmes incluent une moins bonne compression des poids in_proj des SSM et des inversions de gains architecturaux à des tailles de vocabulaire plus grandes, ainsi que des aperçus d'expériences sur les noyaux Triton Mamba-3.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

L'auteur examine pourquoi une recette spécifique de quantification Qwen3.6 27B INT8 Autoround surpasse les autres, observant que le modèle "réfléchit" moins mais fournit de meilleurs résultats lors des benchmarks. Il a ensuite reproduit cette performance avec une nouvelle quantification GGUF, notant que les deux obtiennent constamment des réponses plus rapidement que l'UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR atteint 270 à 1200 images/s en optimisant PaddleOCR avec C++/CUDA, TensorRT FP16, des kernels fusionnés et un traitement par lots, résolvant les goulots d'étranglement de performance des approches basées sur VLM. Cette solution améliore considérablement le débit pour le traitement de documents à grande échelle et convient aux applications RAG en temps réel.

42
RESEARCHarXiv CS.LG·20/04/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Cet article examine le goulot d'étranglement lié à la surcharge de dispatch qui empêche l'élagage de tokens de réduire efficacement la latence dans les Vision Transformers (ViTs). Il propose un nouveau noyau d'attention Triton léger qui abaisse ce seuil de dispatch, améliorant ainsi le débit global jusqu'à 2.24x pour les ViTs élagués.

35
CASEDEV.to AI·20/04/2026

Real Performance Wins with AI Pair Programming: Before/After Benchmarks

Ce contenu montre comment la programmation en binôme avec l'IA, en utilisant Claude, peut entraîner des gains de performance significatifs pour les applications en identifiant et en corrigeant efficacement les goulots d'étranglement. Il présente des résultats réels avant/après, montrant comment l'IA a détecté des problèmes complexes comme les requêtes N+1 que les humains avaient manquées.

31
DOCDEV.to AI·22/04/2026

Hands-On Performance: Diagnosing and Fixing Databricks SQL Bottlenecks

Ce guide pratique se concentre sur l'optimisation des performances dans Databricks SQL, détaillant comment diagnostiquer et résoudre les goulots d'étranglement. Il enseigne des méthodes telles que la réduction des balayages de données, l'optimisation des jointures et l'exploitation de la mise en cache pour rendre les requêtes plus rapides et moins chères, évitant ainsi les erreurs courantes entraînant une latence élevée et un gaspillage de ressources.

31
RESEARCHarXiv CS.CL·06/04/2026

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

29
ARTICLEDEV.to AI·23/04/2026

Your Customer Service Bot Is Slow Because It's Single-Threaded

Cet article souligne que les bots de service client à un seul thread sont lents en raison des appels LLM séquentiels, entraînant une latence allant jusqu'à 12 secondes. Il propose un modèle de sous-agent parallèle avec LangGraph et LangSmith pour exécuter les tâches de recherche concurremment, réduisant considérablement les temps de réponse à environ 6,5 secondes.

28
ARTICLEDEV.to AI·22/04/2026

The Parallelization Trap: Why Running More Agents Simultaneously Often Makes Things Worse

Le "piège de la parallélisation" décrit comment l'augmentation des agents d'IA concurrents peut paradoxalement réduire le débit global du système en raison de problèmes de coordination et de cohérence. Cela se produit lorsque les agents se disputent un contexte partagé, entraînant des informations obsolètes ou contradictoires.

28
ARTICLEDEV.to AI·15/04/2026

How I Build AI Features Into Mobile Apps Without Killing Performance

Le texte aborde les défis d'intégrer des fonctionnalités d'IA dans les applications mobiles sans compromettre les performances, comme la vitesse et l'autonomie de la batterie. Il souligne que la performance de l'IA dans les applications mobiles est un problème multifacette englobant le produit, l'architecture, l'API et l'expérience utilisateur.

28
RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

28
DOCDEV.to AI·23/04/2026

Cursor Rules for Django: The Complete Guide to AI-Assisted Django Development

Ce guide traite des pièges courants de performance et de stabilité dans le développement Django, tels que les requêtes inefficaces et les opérations bloquantes. Il souligne comment les assistants IA, notamment Cursor et Claude Code, peuvent grandement aider à construire des applications Django plus robustes et efficaces.

28
ARTICLEDEV.to AI·20/04/2026

How We Integrate AI Into Real Mobile and Web Apps

Ce contenu offre des conseils pratiques et des leçons tirées par Zartek concernant l'intégration de l'IA dans des applications mobiles et web réelles, en mettant l'accent sur les approches centrées sur les problèmes, l'optimisation des performances, la fiabilité, les économies de coûts grâce à la mise en cache et une observabilité robuste. Il souligne les pièges courants et les fonctionnalités d'IA efficaces.

27