inference

28 items

RESEARCHarXiv CS.LG·il y a 1j

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Cette recherche propose le concept de "program-of-layers (PoLar)" pour les LLM, permettant de sauter ou de boucler dynamiquement des couches pré-entraînées pendant l'inférence pour obtenir une précision équivalente ou supérieure avec des chemins d'exécution plus courts. Un réseau de prédiction léger apprend à générer ces programmes personnalisés, démontrant une performance améliorée sur les benchmarks de raisonnement mathématique.

neural networks mathematical reasoning inference LLMs

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

Pruning inference Transformer quantization

ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) est une nouvelle architecture d'IA qui répond aux questions en éliminant progressivement les impossibilités plutôt qu'en générant des possibilités, fonctionnant indépendamment des LLM. Il atteint 88% de précision, est 95,5 fois plus rapide et 100 fois plus petit que TinyLlama 1.1B, démontrant une efficacité de calcul significative.

AI architecture inference Computational Efficiency sustainable AI

ARTICLE↑ trendingHacker News (AI)·il y a 11j

DeepSeek Slashes AI Costs to Cents

DeepSeek a considérablement réduit les coûts d'inférence de l'IA, les ramenant à quelques centimes seulement. Ce développement rend la technologie d'IA plus accessible et économiquement viable pour un éventail plus large d'applications.

DeepSeek AI costs inference cost reduction

RESEARCH↑ trendingReddit r/LocalLLaMA·16/04/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Le contenu détaille les performances du modèle Qwen 3.6 35B A3B, atteignant 187 tokens par seconde sur un GPU RTX 5090 32GB. Il met en évidence la prise en charge d'une taille de contexte de 120K, utilisant une quantification Q5 K S et une température de 0.1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. a dévoilé une architecture révolutionnaire, la carte HTX301, permettant l'inférence de LLMs de 700B paramètres sur une seule carte PCIe avec 384 Go de mémoire et une faible consommation (~240W). Cette approche délègue le décodage à la HTX301 tandis que les GPUs gèrent le préremplissage, rendant possible l'inférence de LLMs ultra-larges localement sans VRAM GPU massive.

inference LLMs AI hardware

CASE↑ trendingReddit r/MachineLearning·27/04/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Un utilisateur a constaté que la quantification INT8 sur son modèle de deep learning offrait une meilleure précision d'inférence que FP16, ce qui était inattendu. Il recherche des explications pour la performance supérieure de l'INT8 par rapport au FP16.

inference ONNX deep learning quantization

NEWSDEV.to AI·22/04/2026

Google Launches AI Chips for Training and Inference

Google a lancé une nouvelle gamme de puces d'IA, baptisées "Triton X", pour défier la domination de Nvidia, promettant une réduction de 40 % des coûts de formation et une latence d'inférence réduite de 25 %. Ce lancement représente un changement sismique sur le marché du matériel d'IA, intensifiant la concurrence.

inference AI hardware Training Google

RESEARCHarXiv CS.CL·il y a 5j

Expert-Aware Refusal Steering

Cet article étend la direction de refus aux grands modèles de langage Mixture-of-Experts (MoE), constatant que la performance de direction n'est pas inhibée par l'architecture MoE. Il propose des méthodes de direction de refus conscientes des experts, montrant que le comportement de refus peut être efficacement dirigé en se basant sur la sortie d'un seul expert.

MoE models inference refusal steering AI alignment

ARTICLEDEV.to AI·15/04/2026

I Ran 163 Benchmarks Across 10 LLMs So You Don't Have To. Here's What I Found

Cet article met en lumière la pratique courante des équipes de surpayer l'inférence des LLM faute de benchmarking adéquat, choisissant souvent des modèles basés sur la popularité plutôt que sur la rentabilité. L'auteur, à l'aide de l'outil CostGuard, a effectué 163 benchmarks sur 15 modèles, révélant des différences de prix surprenantes allant jusqu'à 200x entre des modèles comme Gemini 2.5 Flash et GPT-5.

AI models inference Benchmarking Cost Optimization

RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Cette recherche révèle que le cache KV dans l'inférence autorégressive des transformateurs, sous la précision FP16 standard, provoque une divergence systématique dans les séquences de tokens décodées en raison de différents ordres d'accumulation en virgule flottante. Un taux de divergence de 100% a été observé sur des modèles comme LLaMA-2-7B et Mistral-7B, le cache-ON offrant souvent une meilleure précision.

AI models inference LLMs numerical precision

ARTICLEDEV.to AI·il y a 12j

The Inference Layer

Trois startups d'infrastructure d'inférence d'IA lèvent collectivement plus de 30 milliards de dollars, démontrant une croissance rapide dans un secteur qui existait à peine il y a 18 mois. Des entreprises comme Baseten, Fireworks AI et Modal Labs atteignent des valorisations de plusieurs milliards de dollars malgré des étapes de revenus récentes.

inference startups enterprise computing Valuation

ARTICLEDEV.to AI·03/05/2026

I wrote a custom CUDA inference engine to run Qwen3.5-27B on $130 mining cards

Un développeur a créé un moteur d'inférence CUDA personnalisé pour exécuter avec succès le grand modèle de langage Qwen3.5-27B sur des cartes graphiques de minage bon marché. Cette approche innovante démontre une optimisation matérielle significative, rendant les modèles d'IA puissants plus accessibles sur du matériel grand public abordable.

CUDA Optimization inference hardware

ARTICLEDEV.to AI·il y a 26j

{"title": "How I Cut My LLM Inference Costs by 40% While Handling 5x More Reques

Cet article explique comment une équipe a réduit de manière significative ses coûts d'inférence LLM de 40 %, tout en gérant cinq fois plus de requêtes. La solution a consisté à reconstruire leur architecture avec une couche proxy légère pour normaliser les requêtes au format compatible OpenAI, permettant l'utilisation flexible de divers fournisseurs de haute performance.

Optimization inference cost reduction Architecture

DOCDEV.to AI·il y a 7j

How to Deploy Mistral 7B with vLLM + KServe on a $10/Month DigitalOcean GPU Droplet: Production-Ready Inference at 1/95th Claude Cost

Ce guide explique comment déployer Mistral 7B avec vLLM et KServe sur un Droplet GPU DigitalOcean à 10 $/mois, permettant une inférence prête pour la production à un coût considérablement réduit. Cette solution offre 95 % d'économies par rapport aux API d'IA commerciales, garantissant une concurrence élevée et une faible latence.

inference deployment learning Cost Optimization

ARTICLEDEV.to AI·21/04/2026

Multi-Model LLM Routing: Why 76% of Your Inference Shouldn't Touch GPT-4

Cet article prône le routage intelligent des requêtes LLM pour optimiser les coûts et les performances en production. Il suggère de diriger 76% des requêtes vers des modèles moins chers et plus rapides, réservant les modèles de pointe comme GPT-4 pour les 24% de tâches complexes qui les nécessitent réellement.

inference model routing Cost Optimization AI agents

ARTICLEDEV.to AI·24/04/2026

How to Deploy Llama 3.2 70B with TensorRT-LLM on a $48/Month DigitalOcean GPU Droplet: 3x Faster Inference Than vLLM

Ce contenu explique comment déployer Llama 3.2 70B avec TensorRT-LLM sur un Droplet GPU DigitalOcean à 48 $/mois, offrant une inférence 3 fois plus rapide que vLLM. Il souligne d'importantes économies de coûts et des améliorations de performance pour les chatbots de production par rapport aux API OpenAI.

inference LLMs self-hosting Performance optimization

RESEARCHDEV.to AI·08/05/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Cet article présente le "Model Showdown Round 2", introduisant de nouveaux modèles tels que Gemma 4 de Google et Kimi K2 de Moonshot AI, et réévaluant les modèles précédents avec des configurations corrigées. Les benchmarks mis à jour ont révélé des changements significatifs dans le classement, corrigeant des problèmes tels que les limites de jetons et l'interprétation des commandes du tour initial.

AI models inference LLMs Benchmarking

RESEARCHarXiv CS.LG·09/04/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

Diffusion Models search algorithms language models inference

RESEARCHarXiv CS.AI·07/05/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) est un nouveau cadre de génération spéculative qui accélère l'inférence des grands modèles linguistiques (LLM). Il y parvient en parallélisant la vérification des préfixes au niveau sémantique, surmontant les limitations existantes en évaluant la correction sur plusieurs préfixes en une seule passe.

inference AI acceleration parallelization Speculative Decoding