LLM inference

11 items

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

DOC↑ trendingReddit r/LocalLLaMA·27/04/2026

To 16GB VRAM users, plug in your old GPU

Ce contenu suggère que les utilisateurs avec 16 Go de VRAM ajoutent une ancienne carte graphique (6 Go+ VRAM) pour augmenter la VRAM totale, permettant l'exécution de modèles LLM plus grands (~30b) même avec une carte secondaire plus faible. Il comprend un exemple de configuration pratique pour `llama-server`.

deep learning GPU optimization LLM inference VRAM management

CASE↑ trendingReddit r/LocalLLaMA·15/04/2026

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

Un nouvel acquéreur de DGX Spark cherche des conseils pour configurer son système pour l'inférence locale de LLM, prévoyant d'utiliser vLLM, PyTorch et des modèles Hugging Face pour un backend d'API privé. Il demande des recommandations de modèles efficaces, des astuces de réglage pour vLLM sur les systèmes à mémoire unifiée et des retours sur le débit réel.

DGX Spark On-prem AI LLM inference PyTorch

DGX Spark just arrived — planning to run vLLM + local models, looking for advice

ARTICLE↑ trendingReddit r/LocalLLaMA·26/04/2026

Thoughts on using an AMD Alveo V80 FPGA PCI card as a poor man’s Taalas HC1 (LLM-burned-onto-a-chip).

L'auteur explore l'utilisation d'une carte FPGA AMD Alveo V80 pour l'inférence LLM, dans le but d'approcher les performances d'une puce Taalas HC1 dédiée. Après avoir consulté Gemini Pro, des vitesses potentielles de 1 400 à 3 200 tk/s ont été estimées, et l'auteur sollicite l'avis de la communauté sur cette approche spéculative.

AI hardware FPGA LLM inference

Thoughts on using an AMD Alveo V80 FPGA PCI card as a poor man’s Taalas HC1 (LLM-burned-onto-a-chip).

ARTICLEDEV.to AI·il y a 18j

RAM Coffers: NUMA-Aware LLM Inference — Why Hardware Topology Still Matters

L'article explique comment la topologie de la mémoire NUMA, et pas seulement la VRAM, est un goulot d'étranglement critique pour l'inférence des LLM sur les serveurs multi-sockets, entraînant une dégradation significative du débit. RAM Coffers de RustChain résout ce problème en détectant la topologie NUMA et en optimisant l'allocation de mémoire et l'épinglage des threads pour des performances prévisibles et améliorées.

multi-socket servers NUMA LLM inference hardware optimization

ARTICLEDEV.to AI·16/04/2026

"The Real Cost of AI Compute: Why Your Agent's Token Budget Is Your Lifeline"

Cet article souligne l'impact financier critique et souvent sous-estimé du calcul d'IA, notamment l'utilisation des tokens, lors du déploiement d'agents IA en production. Il insiste sur le fait que le budget de tokens, plutôt que la feuille de route des fonctionnalités, définit les véritables limites opérationnelles d'un agent en raison des coûts directs et des surcharges comme le RAG.

AI costs AI deployment LLM inference Cost Optimization

DOCDEV.to AI·il y a 26j

Laravel Horizon in Production: Configuring AI Queue Workloads That Actually Hold

Ce guide traite des défis de la configuration de Laravel Horizon pour les charges de travail d'inférence d'IA en production, où les valeurs par défaut des jobs de file d'attente échouent en raison des temps de traitement prolongés des LLM. Il explique comment prévenir les dépassements de délai silencieux et les échecs de jobs qui surviennent lorsque les paramètres par défaut de Horizon ne sont pas adaptés aux tâches d'IA de longue durée.

queue management production operations AI deployment LLM inference

DOCAWS Machine Learning Blog·il y a 11j

Comprehensive observability for Amazon SageMaker AI LLM inference: From GPU utilization to LLM quality

Ce billet présente une solution d'observabilité complète utilisant les tableaux de bord Amazon Managed Grafana. Il offre une vue holistique de la qualité et de la quantité des LLM servis sur les points de terminaison d'inférence Amazon SageMaker AI.

Grafana AI Monitoring LLM inference observability

ARTICLEDEV.to AI·08/04/2026

99.8% of LLM Inference Power Isn't Spent on Computation

O artigo argumenta que o consumo de energia é o maior gargalo na inferência de LLMs, mais do que largura de banda ou VRAM, devido a limitações físicas. Isso se deve ao colapso da Lei de Dennard por volta de 2006, que impediu a redução automática do consumo de energia com o encolhimento dos transistores.

power consumption Bandwidth AI hardware VRAM

RESEARCHarXiv CS.LG·06/04/2026

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networks Optimization browsers Overhead

NEWSDEV.to AI·15/04/2026

AWS Speed Boosts, Agentic Limits, and Clinical AI Advances

AWS optimise l'inférence des LLM avec le décodage spéculatif et a lancé le SDK Spring AI pour Bedrock AgentCore. De nouvelles recherches explorent également les défaillances des systèmes agentiques, la quantification de l'incertitude des CNN et le rôle des LLM dans le raisonnement clinique.

Clinical AI AWS LLM inference Agentic AI