GET Serves Cache, POST Runs Inference: Cost Safety for a Public LLM Endpoint
Un endpoint public de LLM pour un site jouet donnant des réponses erronées utilise une architecture unique : les requêtes GET servent des réponses en cache, tandis que les requêtes POST déclenchent une inférence IA fraîche. Cette conception vise à limiter les abus, à rendre les coûts prévisibles et à décourager les attaques occasionnelles sur le service en accès libre.
