← heapsort-ai

Caching

12 items

ARTICLEDEV.to AI·il y a 25j

Anthropic API in production: 5 things the docs don't tell you

Cet article souligne les coûts cachés de la mise en cache avec l'API Anthropic en production, en particulier lors de l'utilisation d'expériences A/B avec des invites système randomisées. Il explique que les écritures de cache sont plus coûteuses que les lectures et conseille de placer les variations A/B dans `messages[]` au lieu des invites `system` pour optimiser les coûts.

28
RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.

27
DOCDEV.to AI·il y a 17j

Building a cost-efficient LLM caching layer in Python

Ce tutoriel explique comment construire une couche de cache LLM rentable en Python pour réduire les coûts d'API. Il utilise une correspondance exacte via Redis et une détection sémantique des quasi-doublons via la similarité cosinus. Cette approche peut générer d'importantes économies mensuelles en évitant les appels API redondants.

27
ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

L'article décrit une expérience où le cache KV d'un LLM (Qwen3.5-35B-A3B avec 1M de tokens) est utilisé comme "magasin de documents" en le préchargeant une fois et en le persistant pour répondre aux requêtes, éliminant les embeddings et les bases de données vectorielles. L'agent d'ingénierie IA, NEO, a implémenté de manière autonome ce système de Génération Augmentée par Cache en seulement 30 minutes.

27
ARTICLEDEV.to AI·il y a 24j

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

L'article présente un nouveau sink Redis de 60 lignes pour ragvitals, conçu pour utiliser les instances Redis existantes déjà présentes dans la plupart des piles RAG de production pour la mise en cache des invites ou des embeddings. Cette solution basée sur Redis offre une alternative efficace à d'autres sinks de surveillance pour suivre la dérive en production, évitant les infrastructures séparées et simplifiant la collecte de données.

27
RESEARCHarXiv CS.LG·il y a 15j

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

27
ARTICLEDEV.to AI·16/04/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic a discrètement réduit le TTL par défaut du cache de prompts de son API Claude de 1 heure à 5 minutes le 6 mars 2026. Ce changement non annoncé peut entraîner des taux de réussite de cache quasi nuls et des coûts de jetons d'entrée accrus pour les utilisateurs, les requêtes n'étant désormais mises en cache que si elles sont répétées dans une fenêtre de 5 minutes.

27
ARTICLEDEV.to AI·25/04/2026

The Caching Strategy That Cut My Social Data Costs Without Serving Stale Reports

L'auteur décrit l'évolution de sa stratégie de mise en cache, passant d'une approche naïve à une approche intentionnelle qui équilibre la fraîcheur des données et les coûts d'API pour les rapports sociaux. La clé est de comprendre que toutes les données sociales ne changent pas à la même vitesse, permettant un système plus efficace et économique.

24