← heapsort-ai

LLM routing

3 items

ARTICLEDEV.to AI·18/04/2026

Why routing LLM calls is harder than it looks (lessons from building ai-gateway)

L'auteur décrit la complexité inattendue du routage efficace des appels LLM, ce qui l'a conduit à créer une passerelle d'IA qui décide quel modèle utiliser par requête. Ce système vise à optimiser les coûts et les performances, en dirigeant les requêtes simples vers des modèles moins chers et en utilisant des méthodes comme la similarité d'embeddings pour les décisions de routage.

28
RESEARCHarXiv CS.LG·il y a 20j

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI est un routeur innovant qui utilise l'incertitude calibrée pour optimiser le coût des cascades de LLM, en envoyant les requêtes faciles à de petits modèles et les difficiles à de grands modèles. Il réduit le coût d'inférence de 31% sur les charges de travail en production tout en maintenant la précision, en calibrant la confiance du modèle.

27