← heapsort-ai

Caching

12 items

ARTICLEDEV.to AI·hace 25d

Anthropic API in production: 5 things the docs don't tell you

Este artículo resalta los costos ocultos del almacenamiento en caché con la API de Anthropic en producción, particularmente al usar experimentos A/B con mensajes del sistema aleatorios. Explica que las escrituras en caché son más costosas que las lecturas y aconseja colocar las variaciones A/B en `messages[]` en lugar de en los mensajes `system` para optimizar los costos.

28
RESEARCHarXiv CS.LG·8/5/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artículo presenta el almacenamiento en caché de prefijos dispersos, una optimización para la distribución de LLM que almacena estados recurrentes en puntos de control en lugar de todo el historial de tokens. El método mejora consistentemente la frontera de Pareto en comparación con las heurísticas estándar, especialmente para casos de uso donde las solicitudes comparten un prefijo no trivial.

27
DOCDEV.to AI·hace 17d

Building a cost-efficient LLM caching layer in Python

Este tutorial explica cómo construir una capa de caché de LLM rentable en Python para reducir los costos de la API. Emplea coincidencias exactas con Redis y detección semántica de duplicados cercanos mediante similitud de coseno. Este enfoque puede generar ahorros mensuales sustanciales al evitar llamadas redundantes a la API.

27
ARTICLEDEV.to AI·15/4/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

El artículo describe un experimento donde se utiliza el caché KV de un LLM (Qwen3.5-35B-A3B con 1M de tokens) como un "almacén de documentos", precargándolo una vez y persistiendo para responder consultas, eliminando embeddings y bases de datos vectoriales. El agente de ingeniería de IA, NEO, implementó autónomamente este sistema de Generación Aumentada por Caché en solo 30 minutos.

27
ARTICLEDEV.to AI·hace 24d

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

El artículo introduce un nuevo sumidero Redis de 60 líneas para ragvitals, diseñado para aprovechar las instancias Redis existentes en la mayoría de las pilas RAG de producción para el almacenamiento en caché de prompts o embeddings. Esta solución basada en Redis ofrece una alternativa eficiente a otros sumideros de monitoreo para rastrear la deriva en producción, evitando infraestructuras separadas y simplificando la recolección de datos.

27
ARTICLEDEV.to AI·16/4/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic cambió silenciosamente el TTL predeterminado de la caché de avisos de su API de Claude de 1 hora a 5 minutos el 6 de marzo de 2026. Esta regresión no anunciada puede llevar a tasas de aciertos de caché cercanas a cero y a mayores costos de tokens de entrada para los usuarios, ya que las solicitudes ahora solo se almacenan en caché si se repiten en una ventana de 5 minutos.

27
ARTICLEDEV.to AI·25/4/2026

The Caching Strategy That Cut My Social Data Costs Without Serving Stale Reports

El autor describe la evolución de su estrategia de almacenamiento en caché, pasando de un enfoque ingenuo a uno intencional que equilibra la frescura de los datos con los costos de la API para informes sociales. La clave es entender que no todos los datos sociales cambian a la misma velocidad, lo que permite un sistema más eficaz y económico.

24