Performance optimization

44 items

RESEARCHarXiv CS.LG·il y a 19h

Enabling KV Caching of Shared Prefix for Diffusion Language Models

L'article introduit "bicache", la première technique de mise en cache KV pour les préfixes partagés dans les modèles de langage de diffusion (DLMs), résolvant les défis où les méthodes de mise en cache LLM existantes échouent en raison de l'attention bidirectionnelle des DLMs. Cette nouvelle approche vise à permettre un service DLM à haut débit en exploitant les observations sur la stabilité des KVs de préfixes partagés dans les couches peu profondes.

Diffusion Models KV Caching Performance optimization High-throughput serving

RESEARCH↑ trendingReddit r/MachineLearning·10/04/2026

[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]

Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.

Matrix Multiplication RTX GPUs Performance optimization NVIDIA

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 26j

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Une étude exhaustive sur TurboQuant compare ses variantes (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) avec FP8 pour la quantification du cache KV. FP8 est recommandé par défaut, offrant une capacité 2x avec une perte de précision négligeable et de bonnes performances. Les variantes TurboQuant présentent des avantages limités ou une dégradation significative de la précision et des performances, 4bit-nc étant une option pour les scénarios contraints par la mémoire.

AI models TurboQuant Performance optimization FP8

A First Comprehensive Study of TurboQuant: Accuracy and Performance

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI a mis en open-source FlashKDA, un noyau CUTLASS C++ pour Kimi Delta Attention, offrant des améliorations de performance allant jusqu'à 2.22x par rapport à la ligne de base Triton sur H20. Cette implémentation optimise les architectures d'attention linéaire.

Open Source deep learning Performance optimization attention mechanisms

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Cette publication détaille les découvertes empiriques de la compétition Parameter Golf d'OpenAI, expliquant pourquoi les Modèles d'Espace d'État (SSMs) sont structurellement désavantagés par rapport aux transformeurs dans les régimes d'entraînement contraints par les paramètres et le temps. Les problèmes incluent une moins bonne compression des poids in_proj des SSM et des inversions de gains architecturaux à des tailles de vocabulaire plus grandes, ainsi que des aperçus d'expériences sur les noyaux Triton Mamba-3.

SSMs AI models Performance optimization Neural network training

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

L'auteur examine pourquoi une recette spécifique de quantification Qwen3.6 27B INT8 Autoround surpasse les autres, observant que le modèle "réfléchit" moins mais fournit de meilleurs résultats lors des benchmarks. Il a ensuite reproduit cette performance avec une nouvelle quantification GGUF, notant que les deux obtiennent constamment des réponses plus rapidement que l'UD Q8 K XL.

AI models Qwen3.6 Performance optimization quantization

ARTICLE↑ trendingReddit r/MachineLearning·13/04/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR atteint 270 à 1200 images/s en optimisant PaddleOCR avec C++/CUDA, TensorRT FP16, des kernels fusionnés et un traitement par lots, résolvant les goulots d'étranglement de performance des approches basées sur VLM. Cette solution améliore considérablement le débit pour le traitement de documents à grande échelle et convient aux applications RAG en temps réel.

CUDA Performance optimization TensorRT C++

RESEARCHarXiv CS.LG·20/04/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Cet article examine le goulot d'étranglement lié à la surcharge de dispatch qui empêche l'élagage de tokens de réduire efficacement la latence dans les Vision Transformers (ViTs). Il propose un nouveau noyau d'attention Triton léger qui abaisse ce seuil de dispatch, améliorant ainsi le débit global jusqu'à 2.24x pour les ViTs élagués.

AI models deep learning Performance optimization attention mechanisms

CASEDEV.to AI·20/04/2026

Real Performance Wins with AI Pair Programming: Before/After Benchmarks

Ce contenu montre comment la programmation en binôme avec l'IA, en utilisant Claude, peut entraîner des gains de performance significatifs pour les applications en identifiant et en corrigeant efficacement les goulots d'étranglement. Il présente des résultats réels avant/après, montrant comment l'IA a détecté des problèmes complexes comme les requêtes N+1 que les humains avaient manquées.

AI assistant Software Development Performance optimization Benchmarking

DOCDEV.to AI·22/04/2026

Hands-On Performance: Diagnosing and Fixing Databricks SQL Bottlenecks

Ce guide pratique se concentre sur l'optimisation des performances dans Databricks SQL, détaillant comment diagnostiquer et résoudre les goulots d'étranglement. Il enseigne des méthodes telles que la réduction des balayages de données, l'optimisation des jointures et l'exploitation de la mise en cache pour rendre les requêtes plus rapides et moins chères, évitant ainsi les erreurs courantes entraînant une latence élevée et un gaspillage de ressources.

Databricks SQL data engineering Performance optimization

DOCAmazon Web Services (YouTube)·il y a 4j

How do I troubleshoot latency and optimize Amazon Bedrock Agents performance?

Ce contenu explique comment résoudre les problèmes de latence et optimiser les performances des agents Amazon Bedrock. Il fournit un guide pratique pour améliorer l'efficacité et la réactivité des agents d'IA.

Troubleshooting Performance optimization Amazon Bedrock latency

How do I troubleshoot latency and optimize Amazon Bedrock Agents performance?

RESEARCHarXiv CS.CL·06/04/2026

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

Dependency Prediction DEMASK Parallel Decoding machine learning

DOCAWS Machine Learning Blog·il y a 6j

Reducing container cold start times using SOCI index on DLAMI and DLC

Cet article explique comment utiliser l'indice SOCI sur les AMI et conteneurs de Deep Learning disponibles publiquement pour réduire les temps de démarrage à froid. Il couvre les différents modes de SOCI et comment l'implémenter efficacement dans vos charges de travail.

Containers SOCI deep learning cloud computing

ARTICLEDEV.to AI·23/04/2026

Your Customer Service Bot Is Slow Because It's Single-Threaded

Cet article souligne que les bots de service client à un seul thread sont lents en raison des appels LLM séquentiels, entraînant une latence allant jusqu'à 12 secondes. Il propose un modèle de sous-agent parallèle avec LangGraph et LangSmith pour exécuter les tâches de recherche concurremment, réduisant considérablement les temps de réponse à environ 6,5 secondes.

LangGraph customer service AI Performance optimization AI agents

ARTICLEDEV.to AI·22/04/2026

The Parallelization Trap: Why Running More Agents Simultaneously Often Makes Things Worse

Le "piège de la parallélisation" décrit comment l'augmentation des agents d'IA concurrents peut paradoxalement réduire le débit global du système en raison de problèmes de coordination et de cohérence. Cela se produit lorsque les agents se disputent un contexte partagé, entraînant des informations obsolètes ou contradictoires.

AI architecture Performance optimization distributed systems concurrency

ARTICLEDEV.to AI·09/04/2026

Disarming the "Join Bomb": Re-Engineering Collaborative Filtering on Neo4j

O conteúdo aborda a 'Join Bomb', um problema de desempenho em motores de recomendação construídos com Neo4j, causado por travessias bidirecionais não otimizadas em grafos densos. É proposta uma solução comparando uma query Cypher 'ingênua' com uma query otimizada baseada em APOC para eliminar esse gargalo.

Graph Database Performance optimization recommendation-engine Neo4j

ARTICLEDEV.to AI·15/04/2026

How I Build AI Features Into Mobile Apps Without Killing Performance

Le texte aborde les défis d'intégrer des fonctionnalités d'IA dans les applications mobiles sans compromettre les performances, comme la vitesse et l'autonomie de la batterie. Il souligne que la performance de l'IA dans les applications mobiles est un problème multifacette englobant le produit, l'architecture, l'API et l'expérience utilisateur.

mobile development user experience Performance optimization AI

RESEARCHarXiv CS.LG·23/04/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, un superréseau de 15 milliards de paramètres, a été publié, offrant quatre choix de mixeurs entraînés par couche de décodeur pour permettre plusieurs préréglages de vitesse/qualité à partir d'un seul point de contrôle. Cela permet des gains de débit de décodage de 2,9x à 10,7x avec une rétention de qualité de 96% à 77%, et facilite également le décodage spéculatif sans modèle de brouillon séparé.

neural network architecture Performance optimization attention mechanisms large language models

DOCDEV.to AI·23/04/2026

Cursor Rules for Django: The Complete Guide to AI-Assisted Django Development

Ce guide traite des pièges courants de performance et de stabilité dans le développement Django, tels que les requêtes inefficaces et les opérations bloquantes. Il souligne comment les assistants IA, notamment Cursor et Claude Code, peuvent grandement aider à construire des applications Django plus robustes et efficaces.

Software Development Performance optimization Django AI development tools

ARTICLEDEV.to AI·20/04/2026

How We Integrate AI Into Real Mobile and Web Apps

Ce contenu offre des conseils pratiques et des leçons tirées par Zartek concernant l'intégration de l'IA dans des applications mobiles et web réelles, en mettant l'accent sur les approches centrées sur les problèmes, l'optimisation des performances, la fiabilité, les économies de coûts grâce à la mise en cache et une observabilité robuste. Il souligne les pièges courants et les fonctionnalités d'IA efficaces.

AI integration web development Reliability Performance optimization