← heapsort-ai

inference

28 items

RESEARCHarXiv CS.LG·il y a 1j

Skip a Layer or Loop It? Learning Program-of-Layers in LLMs

Cette recherche propose le concept de "program-of-layers (PoLar)" pour les LLM, permettant de sauter ou de boucler dynamiquement des couches pré-entraînées pendant l'inférence pour obtenir une précision équivalente ou supérieure avec des chemins d'exécution plus courts. Un réseau de prédiction léger apprend à générer ces programmes personnalisés, démontrant une performance améliorée sur les benchmarks de raisonnement mathématique.

60
ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

L'utilisateur optimise un modèle Transformer pour la taille et la vitesse d'inférence, ayant atteint un plateau après FP16 et ONNX, avec un pruning peu efficace. Il demande conseil sur des techniques avancées comme la factorisation de rang faible, la quantification agressive ou la distillation de connaissances pour des améliorations concrètes.

50
ARTICLE↑ trendingReddit r/MachineLearning·22/04/2026

I built a new category of AI called a Reductive Inference Model (RIM) that answers by elimination instead of generation — AMA [P]

POEM (Process Of Elimination Master) est une nouvelle architecture d'IA qui répond aux questions en éliminant progressivement les impossibilités plutôt qu'en générant des possibilités, fonctionnant indépendamment des LLM. Il atteint 88% de précision, est 95,5 fois plus rapide et 100 fois plus petit que TinyLlama 1.1B, démontrant une efficacité de calcul significative.

49
ARTICLE↑ trendingHacker News (AI)·il y a 11j

DeepSeek Slashes AI Costs to Cents

DeepSeek a considérablement réduit les coûts d'inférence de l'IA, les ramenant à quelques centimes seulement. Ce développement rend la technologie d'IA plus accessible et économiquement viable pour un éventail plus large d'applications.

42
NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. a dévoilé une architecture révolutionnaire, la carte HTX301, permettant l'inférence de LLMs de 700B paramètres sur une seule carte PCIe avec 384 Go de mémoire et une faible consommation (~240W). Cette approche délègue le décodage à la HTX301 tandis que les GPUs gèrent le préremplissage, rendant possible l'inférence de LLMs ultra-larges localement sans VRAM GPU massive.

42
NEWSDEV.to AI·22/04/2026

Google Launches AI Chips for Training and Inference

Google a lancé une nouvelle gamme de puces d'IA, baptisées "Triton X", pour défier la domination de Nvidia, promettant une réduction de 40 % des coûts de formation et une latence d'inférence réduite de 25 %. Ce lancement représente un changement sismique sur le marché du matériel d'IA, intensifiant la concurrence.

28
RESEARCHarXiv CS.CL·il y a 5j

Expert-Aware Refusal Steering

Cet article étend la direction de refus aux grands modèles de langage Mixture-of-Experts (MoE), constatant que la performance de direction n'est pas inhibée par l'architecture MoE. Il propose des méthodes de direction de refus conscientes des experts, montrant que le comportement de refus peut être efficacement dirigé en se basant sur la sortie d'un seul expert.

28
ARTICLEDEV.to AI·15/04/2026

I Ran 163 Benchmarks Across 10 LLMs So You Don't Have To. Here's What I Found

Cet article met en lumière la pratique courante des équipes de surpayer l'inférence des LLM faute de benchmarking adéquat, choisissant souvent des modèles basés sur la popularité plutôt que sur la rentabilité. L'auteur, à l'aide de l'outil CostGuard, a effectué 163 benchmarks sur 15 modèles, révélant des différences de prix surprenantes allant jusqu'à 200x entre des modèles comme Gemini 2.5 Flash et GPT-5.

27
RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Cette recherche révèle que le cache KV dans l'inférence autorégressive des transformateurs, sous la précision FP16 standard, provoque une divergence systématique dans les séquences de tokens décodées en raison de différents ordres d'accumulation en virgule flottante. Un taux de divergence de 100% a été observé sur des modèles comme LLaMA-2-7B et Mistral-7B, le cache-ON offrant souvent une meilleure précision.

27
ARTICLEDEV.to AI·il y a 12j

The Inference Layer

Trois startups d'infrastructure d'inférence d'IA lèvent collectivement plus de 30 milliards de dollars, démontrant une croissance rapide dans un secteur qui existait à peine il y a 18 mois. Des entreprises comme Baseten, Fireworks AI et Modal Labs atteignent des valorisations de plusieurs milliards de dollars malgré des étapes de revenus récentes.

27
ARTICLEDEV.to AI·il y a 26j

{"title": "How I Cut My LLM Inference Costs by 40% While Handling 5x More Reques

Cet article explique comment une équipe a réduit de manière significative ses coûts d'inférence LLM de 40 %, tout en gérant cinq fois plus de requêtes. La solution a consisté à reconstruire leur architecture avec une couche proxy légère pour normaliser les requêtes au format compatible OpenAI, permettant l'utilisation flexible de divers fournisseurs de haute performance.

27
DOCDEV.to AI·il y a 7j

How to Deploy Mistral 7B with vLLM + KServe on a $10/Month DigitalOcean GPU Droplet: Production-Ready Inference at 1/95th Claude Cost

Ce guide explique comment déployer Mistral 7B avec vLLM et KServe sur un Droplet GPU DigitalOcean à 10 $/mois, permettant une inférence prête pour la production à un coût considérablement réduit. Cette solution offre 95 % d'économies par rapport aux API d'IA commerciales, garantissant une concurrence élevée et une faible latence.

27
ARTICLEDEV.to AI·24/04/2026

How to Deploy Llama 3.2 70B with TensorRT-LLM on a $48/Month DigitalOcean GPU Droplet: 3x Faster Inference Than vLLM

Ce contenu explique comment déployer Llama 3.2 70B avec TensorRT-LLM sur un Droplet GPU DigitalOcean à 48 $/mois, offrant une inférence 3 fois plus rapide que vLLM. Il souligne d'importantes économies de coûts et des améliorations de performance pour les chatbots de production par rapport aux API OpenAI.

27
RESEARCHDEV.to AI·08/05/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Cet article présente le "Model Showdown Round 2", introduisant de nouveaux modèles tels que Gemma 4 de Google et Kimi K2 de Moonshot AI, et réévaluant les modèles précédents avec des configurations corrigées. Les benchmarks mis à jour ont révélé des changements significatifs dans le classement, corrigeant des problèmes tels que les limites de jetons et l'interprétation des commandes du tour initial.

27
RESEARCHarXiv CS.LG·09/04/2026

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

27
RESEARCHarXiv CS.AI·07/05/2026

Parallel Prefix Verification for Speculative Generation

PARSE (PArallel pRefix Speculative Engine) est un nouveau cadre de génération spéculative qui accélère l'inférence des grands modèles linguistiques (LLM). Il y parvient en parallélisant la vérification des préfixes au niveau sémantique, surmontant les limitations existantes en évaluant la correction sur plusieurs préfixes en une seule passe.

27