AI inference

28 items

ARTICLE↑ trendingHacker News (AI)·il y a 6j

Lean Inference: Lean Manufacturing Principles Applied to AI

Cet article explore l'application des principes du Lean Manufacturing à l'inférence d'IA, visant à optimiser l'efficacité et à réduire le gaspillage dans les flux de travail d'intelligence artificielle. Il détaille comment les méthodologies lean peuvent être utilisées pour améliorer les performances et la durabilité des systèmes d'IA.

MLOps Optimization Lean Manufacturing efficiency

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

LLM optimization llama.cpp GGUF Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

NEWS↑ trendingReddit r/LocalLLaMA·19/04/2026

llama.cpp speculative checkpointing was merged

Le "checkpointing spéculatif" a été intégré à llama.cpp, offrant des gains de vitesse potentiels. Certains prompts, notamment pour le codage avec des paramètres optimisés, peuvent bénéficier d'une accélération de 0% à 50%, tandis que d'autres pourraient ne pas voir d'amélioration en raison d'un faible taux d'acceptation du brouillon.

Open Source llama.cpp speculative-checkpointing AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 28j

I got a real transformer language model running locally on a stock Game Boy Color!

Un modèle de langage transformateur (TinyStories-260K) a été exécuté localement sur une Game Boy Color standard, utilisant des poids INT8 et des calculs en virgule fixe. Cette prouesse technique remarquable a impliqué une ROM personnalisée et une tokenisation sur l'appareil, malgré une performance extrêmement lente et une sortie illisible.

Hardware Acceleration Edge AI quantization AI inference

I got a real transformer language model running locally on a stock Game Boy Color!

ARTICLEDEV.to AI·il y a 15j

The Quiet AI War Inside Your Browser

Google a lancé l'API Prompt dans Chrome 148, permettant l'inférence d'IA locale avec Gemini Nano directement sur les appareils des utilisateurs, malgré une forte opposition de Mozilla, Apple et du W3C. Cette fonctionnalité offre une IA sans coûts de serveur, latence ou sortie de données du device, consolidant la victoire de Google dans cette

Google Chrome Web Standards Gemini Nano AI inference

DOCDEV.to AI·il y a 22j

Building llama.cpp from source on a Dell Precision T5820 with an RTX 3090 Ti (after seven power cycles)

Cet article décrit la configuration d'un Dell Precision T5820 avec une RTX 3090 Ti pour l'inférence d'IA en utilisant llama.cpp pour exécuter Qwen3.6-27B. L'auteur partage la recette de construction, le dépannage PCIe et les astuces pour le contexte long, soulignant la patience comme une solution cruciale.

Homelab GPU Troubleshooting llama.cpp

NEWSAWS Machine Learning Blog·il y a 5j

NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart. Ce déploiement offre une inférence 5 fois plus rapide et des coûts réduits de 30 % pour les charges de travail d'IA.

Nemotron 3 Ultra machine learning NVIDIA AI inference

DOCDEV.to AI·il y a 23j

How to Fast Ai Inference with itapi.ai: A Complete Guide [May 2026]

Ce guide explique comment itapi.ai simplifie l'inférence rapide d'IA, offrant une API robuste et conviviale pour les développeurs qui réduit le temps d'intégration. Il fournit un processus étape par étape pour démarrer, y compris la création d'un compte gratuit et l'installation du SDK officiel.

development tutorial API SDK

DOCDEV.to AI·il y a 24j

A Developer's Guide to AI Inference Costs in 2026

Ce guide pratique aide les développeurs à estimer les coûts d'inférence de l'IA, abordant des facteurs tels que le coût par jeton d'API et le taux de réussite crucial du cache. Pour les modèles auto-hébergés, il souligne l'importance des taux d'utilisation du GPU pour optimiser les dépenses. La compréhension de ces variables est essentielle pour la durabilité financière dans le développement de fonctionnalités d'IA.

Optimization cloud computing costs AI inference

DOCHugging Face Blog·il y a 29j

Building Blocks for Foundation Model Training and Inference on AWS

Le contenu aborde les éléments essentiels pour l'entraînement et l'inférence des modèles de fondation sur la plateforme AWS. Il explore les composants nécessaires à l'implémentation et à l'exploitation de ces modèles.

AI training machine learning Foundation Models AWS

ARTICLEDEV.to AI·il y a 7j

Request-Based vs Token Pricing for LLM Inference in 2026

Le contenu examine l'évolution potentielle des modèles de tarification pour l'inférence des LLM d'ici 2026, passant de la facturation basée sur les jetons à celle basée sur les requêtes. Le modèle basé sur les jetons devient imprévisible avec de grandes fenêtres contextuelles, tandis qu'un forfait par appel API offre une certitude des coûts.

cost management LLM pricing AI inference API billing

ARTICLEDEV.to AI·19/04/2026

Cloudflare Workers AI: Run Edge Inference Without a GPU Server

Cloudflare Workers AI permet d'exécuter l'inférence IA en périphérie sans serveur GPU, offrant plus de 50 modèles et une facturation par unité d'inférence. Ce service simplifie le développement d'applications natives IA en fournissant une inférence globale à faible latence sur le réseau GPU de Cloudflare, éliminant les démarrages à froid et la gestion de serveur.

cloud computing machine learning Serverless AI inference

DOCDEV.to AI·il y a 18j

在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]

Ce guide technique démontre comment exécuter des LLM et des modèles Stable Diffusion sur un ancien GPU AMD RX 580 en 2026, en contournant les limitations logicielles de l'IA. Il détaille l'utilisation de Vulkan natif avec le moteur ggml pour une inférence efficace, prouvant la viabilité du matériel plus ancien.

Vulkan hardware ggml AI inference

RESEARCHarXiv CS.AI·04/05/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena est introduit comme un benchmark continu qui mesure l'inférence d'IA à la granularité du point de terminaison selon cinq axes principaux. Il synthétise la vitesse de sortie, le temps jusqu'au premier token, le prix, le contexte effectif et la qualité, ainsi que des estimations d'énergie, en composites tels que les joules et les dollars par réponse correcte et la fidélité du point de terminaison.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.LG·il y a 20j

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur innovant qui utilise l'incertitude calibrée pour optimiser le coût des cascades de LLM, en envoyant les requêtes faciles à de petits modèles et les difficiles à de grands modèles. Il réduit le coût d'inférence de 31% sur les charges de travail en production tout en maintenant la précision, en calibrant la confiance du modèle.

LLM routing uncertainty calibration model cascades Cost Optimization

RESEARCHarXiv CS.CL·il y a 12j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

Optimization machine learning large language models AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

llama.cpp is the linux of llm

Le contenu compare llama.cpp à Linux pour les Grands Modèles Linguistiques (LLM), le présentant comme une solution fondamentale et open-source pour l'exécution des LLM. L'auteur s'interroge sur la pertinence de cette analogie pour l'écosystème des LLM.

Open Source AI inference LLM

RESEARCHarXiv CS.LG·30/04/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Ce travail repense l'éviction du cache KV pour les LLM via un objectif informationnel-théorique dérivé du principe du Goulot d'Information. Il présente CapKV, une nouvelle méthode consciente de la capacité qui préserve l'information, surpassant les stratégies heuristiques existantes.

Memory Optimization machine learning large language models AI inference

ARTICLETogether AI Blog·08/05/2026

Serving DeepSeek-V4: why million-token context is an inference systems problem

Le contexte de millions de jetons de DeepSeek-V4 pose un problème majeur aux systèmes d'inférence. Together AI explore le travail d'inférence derrière V4 sur NVIDIA HGX B200, y compris les layouts KV compressés et la mise en cache de préfixes pour les charges de travail à long contexte.

long-context models DeepSeek V4 NVIDIA AI inference