Caching

12 items

ARTICLEDEV.to AI·il y a 15j

DeepSeek reasonix, DeepSeek native coding agent with high caching and low cost

L'auteur exprime son enthousiasme pour l'agent de codage natif de DeepSeek, un outil d'IA conçu pour offrir un cache élevé et des coûts réduits pour la mise à l'échelle des projets. Après l'avoir découvert sur un forum de développeurs, l'auteur a exploré son potentiel, trouvant sa promesse de codage plus rapide et moins cher attrayante.

DeepSeek Coding Agent AI Caching

ARTICLEDEV.to AI·17/04/2026

The 270-Second Rule: How to Cut Claude Code API Costs by 90% with Smart

Le cache de prompts d'Anthropic a un TTL de 5 minutes, et les boucles d'orchestration s'exécutant plus rapidement que 270 secondes paient environ 10% des coûts complets des tokens d'entrée. Ce détail est crucial pour les utilisateurs de Claude Code afin d'optimiser considérablement les coûts de l'API.

Claude API Anthropic Cost Optimization

ARTICLEDEV.to AI·il y a 25j

Anthropic API in production: 5 things the docs don't tell you

Cet article souligne les coûts cachés de la mise en cache avec l'API Anthropic en production, en particulier lors de l'utilisation d'expériences A/B avec des invites système randomisées. Il explique que les écritures de cache sont plus coûteuses que les lectures et conseille de placer les variations A/B dans `messages[]` au lieu des invites `system` pour optimiser les coûts.

Anthropic API production tips API usage Cost Optimization

RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.

LLMs AI infrastructure Caching performance

DOCDEV.to AI·il y a 17j

Building a cost-efficient LLM caching layer in Python

Ce tutoriel explique comment construire une couche de cache LLM rentable en Python pour réduire les coûts d'API. Il utilise une correspondance exacte via Redis et une détection sémantique des quasi-doublons via la similarité cosinus. Cette approche peut générer d'importantes économies mensuelles en évitant les appels API redondants.

LLMs Redis Cost Optimization Caching

ARTICLEDEV.to AI·il y a 29j

How I Cut My API Bill in Half Without Understanding What I Was Doing

Une personne a considérablement réduit sa facture d'API IA en mettant en œuvre la mise en cache des invites. Elle a découvert qu'une grande partie du contexte de ses requêtes API était statique et pouvait être mise en cache, entraînant une réduction de 90 % du coût des jetons mis en cache.

prompt-engineering cost reduction Caching API optimization

ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

L'article décrit une expérience où le cache KV d'un LLM (Qwen3.5-35B-A3B avec 1M de tokens) est utilisé comme "magasin de documents" en le préchargeant une fois et en le persistant pour répondre aux requêtes, éliminant les embeddings et les bases de données vectorielles. L'agent d'ingénierie IA, NEO, a implémenté de manière autonome ce système de Génération Augmentée par Cache en seulement 30 minutes.

AI agent Long Context Caching KV cache

ARTICLEDEV.to AI·il y a 24j

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

L'article présente un nouveau sink Redis de 60 lignes pour ragvitals, conçu pour utiliser les instances Redis existantes déjà présentes dans la plupart des piles RAG de production pour la mise en cache des invites ou des embeddings. Cette solution basée sur Redis offre une alternative efficace à d'autres sinks de surveillance pour suivre la dérive en production, évitant les infrastructures séparées et simplifiant la collecte de données.

data sink RAG Redis Production Monitoring

RESEARCHarXiv CS.LG·il y a 15j

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

Associative Memory deep learning AI Caching

ARTICLEDEV.to AI·16/04/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic a silencieusement réduit la durée de vie (TTL) du cache de prompts de l'API Claude de 1 heure à 5 minutes à compter du 6 mars 2026, impactant fortement les taux de succès du cache et les coûts des utilisateurs. De plus, désactiver la télémétrie annule également le TTL d'une heure, le ramenant à 5 minutes.

API Anthropic Cost Optimization Caching

ARTICLEDEV.to AI·16/04/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic a discrètement réduit le TTL par défaut du cache de prompts de son API Claude de 1 heure à 5 minutes le 6 mars 2026. Ce changement non annoncé peut entraîner des taux de réussite de cache quasi nuls et des coûts de jetons d'entrée accrus pour les utilisateurs, les requêtes n'étant désormais mises en cache que si elles sont répétées dans une fenêtre de 5 minutes.

Claude API Anthropic Caching

ARTICLEDEV.to AI·25/04/2026

The Caching Strategy That Cut My Social Data Costs Without Serving Stale Reports

L'auteur décrit l'évolution de sa stratégie de mise en cache, passant d'une approche naïve à une approche intentionnelle qui équilibre la fraîcheur des données et les coûts d'API pour les rapports sociaux. La clé est de comprendre que toutes les données sociales ne changent pas à la même vitesse, permettant un système plus efficace et économique.

Optimization data management Caching social data