← heapsort-ai

LLM routing

3 items

ARTICLEDEV.to AI·4/18/2026

Why routing LLM calls is harder than it looks (lessons from building ai-gateway)

Der Autor beschreibt die unerwartete Komplexität des effizienten Routings von LLM-Anfragen, was zum Bau eines KI-Gateways führte, das pro Anfrage entscheidet, welches Modell verwendet werden soll. Dieses System optimiert Kosten und Leistung, indem es einfache Prompts an günstigere Modelle leitet und Methoden wie die Embedding-Ähnlichkeit für Routing-Entscheidungen nutzt.

28
RESEARCHarXiv CS.LG·vor 20T

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI ist ein innovativer Router, der kalibrierte Unsicherheit nutzt, um die Kosten von LLM-Kaskaden zu optimieren, indem er einfache Anfragen an kleinere Modelle und schwierige an größere Modelle sendet. Er reduziert die Inferenzkosten in Produktionsumgebungen um 31% bei gleichbleibender Genauigkeit, indem er die Modellkonfidenz kalibriert.

27