inference

28 items

RESEARCHarXiv CS.LG·24/04/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse est un nouveau système d'inférence conçu pour les plateformes uniquement CPU, permettant l'exécution de grands modèles linguistiques sans multiplications. Il utilise des poids ternaires ({-1, 0, +1}) pour remplacer les multiplications en virgule flottante par des additions et soustractions conditionnelles, réduisant considérablement les goulots d'étranglement de la bande passante mémoire et offrant une compression de poids jusqu'à 16x.

inference CPU optimization quantization performance

RESEARCHarXiv CS.LG·il y a 18j

Harnesses for Inference-Time Alignment over Execution Trajectories

Cette recherche étudie l'ingénierie des harnais comme technique d'inférence pour les agents de grands modèles linguistiques (LLM), visant à améliorer les performances à long terme par la décomposition des tâches et l'exécution guidée. Elle quantifie l'impact des éléments de conception tels que la granularité du flux de travail et l'orientation sur les performances, révélant des modes de défaillance courants comme la surdécomposition et l'exécution hallucinatoire.

inference LLMs machine learning Task Decomposition

RESEARCHDEV.to AI·il y a 12j

Sleep Phase Cuts Transformer Costs by Consolidating Memory

Un nouvel article propose une phase de "sommeil" pour les modèles de langage, consolidant le contexte en mémoire de taille fixe. Cela réduit les coûts d'inférence quadratiques et améliore les performances sur les tâches à long terme.

language models inference Transformer memory

DOCDEV.to AI·28/04/2026

How to Deploy Phi-3.5 Mini with vLLM on a $5/Month DigitalOcean Droplet: Lightweight Production Inference Under $60/Year

Cet article guide les utilisateurs sur le déploiement du LLM Phi-3.5 Mini de Microsoft avec vLLM sur un Droplet DigitalOcean à 5 $/mois. La configuration offre une inférence de production légère pour moins de 60 $ par an, visant à réduire considérablement les coûts par rapport aux API LLM commerciales coûteuses.

inference cloud computing Cost Optimization LLM deployment

DOCTogether AI Blog·08/05/2026

Deploy and inference any model from HuggingFace

Cette session explique comment déployer n'importe quel modèle Hugging Face en utilisant Goose et le Dedicated Container Inference de Together. Elle vise à simplifier la complexité de la configuration, permettant aux modèles de fonctionner rapidement dans un environnement GPU de production.

inference learning GPU AI deployment

ARTICLEML Mastery·il y a 11j

Serving Multiple Users at Once: How Continuous Batching Keeps LLM Inference Efficient

Cet article explore comment le traitement par lots continu améliore l'efficacité de l'inférence des LLM, en abordant les problèmes du traitement par lots statique. Il détaille la planification dynamique et le traitement par lots irrégulier pour traiter plusieurs requêtes simultanément.

inference deep learning efficiency Batching

Serving Multiple Users at Once: How Continuous Batching Keeps LLM Inference Efficient

NEWSTogether AI Blog·17/03/2026

Mamba-3

Mamba-3 est présenté comme un nouveau modèle à espace d'états (SSM) open-source, optimisé pour l'inférence. Il est plus rapide que les Transformers en décodage et plus performant que Mamba-2.

Open Source inference Mamba-3 SSM

NEWSDEV.to AI·18/04/2026

AI Hub Phase 8: Adding DeepInfra and Liquid AI — Now at 33 Providers

La Phase 8 de l'AI Hub annonce l'ajout de DeepInfra et Liquid AI, portant le nombre total de fournisseurs à 33. DeepInfra est mise en avant pour son rapport coût-efficacité et son endpoint compatible OpenAI, tandis que Liquid AI propose une architecture novatrice au-delà des transformateurs pour les tâches à contexte long.

AI platforms DeepInfra inference LLMs