← heapsort-ai

AI inference

28 items

ARTICLE↑ trendingHacker News (AI)·il y a 6j

Lean Inference: Lean Manufacturing Principles Applied to AI

Cet article explore l'application des principes du Lean Manufacturing à l'inférence d'IA, visant à optimiser l'efficacité et à réduire le gaspillage dans les flux de travail d'intelligence artificielle. Il détaille comment les méthodologies lean peuvent être utilisées pour améliorer les performances et la durabilité des systèmes d'IA.

44
DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

43
RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
NEWS↑ trendingReddit r/LocalLLaMA·19/04/2026

llama.cpp speculative checkpointing was merged

Le "checkpointing spéculatif" a été intégré à llama.cpp, offrant des gains de vitesse potentiels. Certains prompts, notamment pour le codage avec des paramètres optimisés, peuvent bénéficier d'une accélération de 0% à 50%, tandis que d'autres pourraient ne pas voir d'amélioration en raison d'un faible taux d'acceptation du brouillon.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 28j

I got a real transformer language model running locally on a stock Game Boy Color!

Un modèle de langage transformateur (TinyStories-260K) a été exécuté localement sur une Game Boy Color standard, utilisant des poids INT8 et des calculs en virgule fixe. Cette prouesse technique remarquable a impliqué une ROM personnalisée et une tokenisation sur l'appareil, malgré une performance extrêmement lente et une sortie illisible.

I got a real transformer language model running locally on a stock Game Boy Color!
42
ARTICLEDEV.to AI·il y a 15j

The Quiet AI War Inside Your Browser

Google a lancé l'API Prompt dans Chrome 148, permettant l'inférence d'IA locale avec Gemini Nano directement sur les appareils des utilisateurs, malgré une forte opposition de Mozilla, Apple et du W3C. Cette fonctionnalité offre une IA sans coûts de serveur, latence ou sortie de données du device, consolidant la victoire de Google dans cette

30
DOCDEV.to AI·il y a 24j

A Developer's Guide to AI Inference Costs in 2026

Ce guide pratique aide les développeurs à estimer les coûts d'inférence de l'IA, abordant des facteurs tels que le coût par jeton d'API et le taux de réussite crucial du cache. Pour les modèles auto-hébergés, il souligne l'importance des taux d'utilisation du GPU pour optimiser les dépenses. La compréhension de ces variables est essentielle pour la durabilité financière dans le développement de fonctionnalités d'IA.

27
ARTICLEDEV.to AI·19/04/2026

Cloudflare Workers AI: Run Edge Inference Without a GPU Server

Cloudflare Workers AI permet d'exécuter l'inférence IA en périphérie sans serveur GPU, offrant plus de 50 modèles et une facturation par unité d'inférence. Ce service simplifie le développement d'applications natives IA en fournissant une inférence globale à faible latence sur le réseau GPU de Cloudflare, éliminant les démarrages à froid et la gestion de serveur.

27
RESEARCHarXiv CS.AI·04/05/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

TokenArena est introduit comme un benchmark continu qui mesure l'inférence d'IA à la granularité du point de terminaison selon cinq axes principaux. Il synthétise la vitesse de sortie, le temps jusqu'au premier token, le prix, le contexte effectif et la qualité, ainsi que des estimations d'énergie, en composites tels que les joules et les dollars par réponse correcte et la fidélité du point de terminaison.

27
RESEARCHarXiv CS.LG·il y a 20j

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur innovant qui utilise l'incertitude calibrée pour optimiser le coût des cascades de LLM, en envoyant les requêtes faciles à de petits modèles et les difficiles à de grands modèles. Il réduit le coût d'inférence de 31% sur les charges de travail en production tout en maintenant la précision, en calibrant la confiance du modèle.

27
RESEARCHarXiv CS.CL·il y a 12j

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec propose un cadre pour l'évolution en temps réel des modèles de brouillon dans le décodage spéculatif pour les Grands Modèles de Langage, s'attaquant au goulot d'étranglement des grandes tailles de vocabulaire. Il utilise une adaptation dynamique du vocabulaire et des paramètres, employant un mécanisme conscient du contexte et une stratégie d'alignement en ligne légère pour améliorer les taux d'acceptation et minimiser les écarts de distribution.

27
ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

llama.cpp is the linux of llm

Le contenu compare llama.cpp à Linux pour les Grands Modèles Linguistiques (LLM), le présentant comme une solution fondamentale et open-source pour l'exécution des LLM. L'auteur s'interroge sur la pertinence de cette analogie pour l'écosystème des LLM.

27