← heapsort-ai

LLM routing

3 items

ARTICLEDEV.to AI·18/4/2026

Why routing LLM calls is harder than it looks (lessons from building ai-gateway)

El autor describe la complejidad inesperada de enrutar llamadas a LLM de forma eficiente, lo que llevó a la creación de una pasarela de IA que decide qué modelo usar por solicitud. Este sistema busca optimizar costes y rendimiento, dirigiendo las solicitudes sencillas a modelos más económicos y utilizando métodos como la similitud de embeddings para las decisiones de enrutamiento.

28
RESEARCHarXiv CS.LG·hace 21d

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI es un enrutador innovador que utiliza la incertidumbre calibrada para optimizar el coste de las cascadas de LLM, enviando consultas fáciles a modelos pequeños y difíciles a modelos grandes. Reduce el coste de inferencia en un 31% en cargas de trabajo de producción, manteniendo la precisión, mediante la calibración de la confianza del modelo.

27