← heapsort-ai

inference

28 items

RESEARCHarXiv CS.LG·24/04/2026

FairyFuse: Multiplication-Free LLM Inference on CPUs via Fused Ternary Kernels

FairyFuse est un nouveau système d'inférence conçu pour les plateformes uniquement CPU, permettant l'exécution de grands modèles linguistiques sans multiplications. Il utilise des poids ternaires ({-1, 0, +1}) pour remplacer les multiplications en virgule flottante par des additions et soustractions conditionnelles, réduisant considérablement les goulots d'étranglement de la bande passante mémoire et offrant une compression de poids jusqu'à 16x.

27
RESEARCHarXiv CS.LG·il y a 18j

Harnesses for Inference-Time Alignment over Execution Trajectories

Cette recherche étudie l'ingénierie des harnais comme technique d'inférence pour les agents de grands modèles linguistiques (LLM), visant à améliorer les performances à long terme par la décomposition des tâches et l'exécution guidée. Elle quantifie l'impact des éléments de conception tels que la granularité du flux de travail et l'orientation sur les performances, révélant des modes de défaillance courants comme la surdécomposition et l'exécution hallucinatoire.

27
DOCDEV.to AI·28/04/2026

How to Deploy Phi-3.5 Mini with vLLM on a $5/Month DigitalOcean Droplet: Lightweight Production Inference Under $60/Year

Cet article guide les utilisateurs sur le déploiement du LLM Phi-3.5 Mini de Microsoft avec vLLM sur un Droplet DigitalOcean à 5 $/mois. La configuration offre une inférence de production légère pour moins de 60 $ par an, visant à réduire considérablement les coûts par rapport aux API LLM commerciales coûteuses.

27
DOCTogether AI Blog·08/05/2026

Deploy and inference any model from HuggingFace

Cette session explique comment déployer n'importe quel modèle Hugging Face en utilisant Goose et le Dedicated Container Inference de Together. Elle vise à simplifier la complexité de la configuration, permettant aux modèles de fonctionner rapidement dans un environnement GPU de production.

27
NEWSTogether AI Blog·17/03/2026

Mamba-3

Mamba-3 est présenté comme un nouveau modèle à espace d'états (SSM) open-source, optimisé pour l'inférence. Il est plus rapide que les Transformers en décodage et plus performant que Mamba-2.

27