Caching

12 items

ARTICLEDEV.to AI·hace 15d

DeepSeek reasonix, DeepSeek native coding agent with high caching and low cost

El autor expresa entusiasmo por el Native Coding Agent de DeepSeek, una herramienta de IA diseñada para ofrecer alto almacenamiento en caché y bajos costos para escalar proyectos. Después de descubrirla en un foro de desarrolladores, el autor exploró su potencial, encontrando atractiva su promesa de codificación más rápida y económica.

DeepSeek Coding Agent AI Caching

ARTICLEDEV.to AI·17/4/2026

The 270-Second Rule: How to Cut Claude Code API Costs by 90% with Smart

El caché de prompts de Anthropic tiene un TTL de 5 minutos, y los bucles de orquestación que se ejecutan en menos de 270 segundos pagan aproximadamente el 10% de los costos totales de los tokens de entrada. Este detalle es crucial para que los usuarios de Claude Code optimicen significativamente los costos de la API.

Claude API Anthropic Cost Optimization

ARTICLEDEV.to AI·hace 25d

Anthropic API in production: 5 things the docs don't tell you

Este artículo resalta los costos ocultos del almacenamiento en caché con la API de Anthropic en producción, particularmente al usar experimentos A/B con mensajes del sistema aleatorios. Explica que las escrituras en caché son más costosas que las lecturas y aconseja colocar las variaciones A/B en `messages[]` en lugar de en los mensajes `system` para optimizar los costos.

Anthropic API production tips API usage Cost Optimization

RESEARCHarXiv CS.LG·8/5/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artículo presenta el almacenamiento en caché de prefijos dispersos, una optimización para la distribución de LLM que almacena estados recurrentes en puntos de control en lugar de todo el historial de tokens. El método mejora consistentemente la frontera de Pareto en comparación con las heurísticas estándar, especialmente para casos de uso donde las solicitudes comparten un prefijo no trivial.

LLMs AI infrastructure Caching performance

DOCDEV.to AI·hace 17d

Building a cost-efficient LLM caching layer in Python

Este tutorial explica cómo construir una capa de caché de LLM rentable en Python para reducir los costos de la API. Emplea coincidencias exactas con Redis y detección semántica de duplicados cercanos mediante similitud de coseno. Este enfoque puede generar ahorros mensuales sustanciales al evitar llamadas redundantes a la API.

LLMs Redis Cost Optimization Caching

ARTICLEDEV.to AI·hace 29d

How I Cut My API Bill in Half Without Understanding What I Was Doing

Un individuo redujo drásticamente su factura de API de IA implementando el almacenamiento en caché de prompts. Descubrieron que gran parte del contexto de sus solicitudes de API era estático y podía ser almacenado en caché, lo que llevó a una reducción del 90% en el costo de los tokens en caché.

prompt-engineering cost reduction Caching API optimization

ARTICLEDEV.to AI·15/4/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

El artículo describe un experimento donde se utiliza el caché KV de un LLM (Qwen3.5-35B-A3B con 1M de tokens) como un "almacén de documentos", precargándolo una vez y persistiendo para responder consultas, eliminando embeddings y bases de datos vectoriales. El agente de ingeniería de IA, NEO, implementó autónomamente este sistema de Generación Aumentada por Caché en solo 30 minutos.

AI agent Long Context Caching KV cache

ARTICLEDEV.to AI·hace 24d

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

El artículo introduce un nuevo sumidero Redis de 60 líneas para ragvitals, diseñado para aprovechar las instancias Redis existentes en la mayoría de las pilas RAG de producción para el almacenamiento en caché de prompts o embeddings. Esta solución basada en Redis ofrece una alternativa eficiente a otros sumideros de monitoreo para rastrear la deriva en producción, evitando infraestructuras separadas y simplificando la recolección de datos.

data sink RAG Redis Production Monitoring

RESEARCHarXiv CS.LG·hace 16d

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

El artículo presenta Tensor Cache, una caché de dos niveles para Transformers que optimiza las cachés KV. Combina la atención softmax de ventana deslizante (L1) con una memoria de peso rápido de producto externo de tamaño fijo (L2) para gestionar los tokens desalojados, mejorando el acceso a evidencia relevante fuera de la ventana de contexto.

Associative Memory deep learning AI Caching

ARTICLEDEV.to AI·16/4/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic redujo silenciosamente el TTL de la caché de prompts de la API de Claude de 1 hora a 5 minutos a partir del 6 de marzo de 2026, lo que impacta drásticamente las tasas de acierto de la caché y los costos de los usuarios. Además, deshabilitar la telemetría también anula el TTL de 1 hora, resultando en una reducción a 5 minutos.

API Anthropic Cost Optimization Caching

ARTICLEDEV.to AI·16/4/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic cambió silenciosamente el TTL predeterminado de la caché de avisos de su API de Claude de 1 hora a 5 minutos el 6 de marzo de 2026. Esta regresión no anunciada puede llevar a tasas de aciertos de caché cercanas a cero y a mayores costos de tokens de entrada para los usuarios, ya que las solicitudes ahora solo se almacenan en caché si se repiten en una ventana de 5 minutos.

Claude API Anthropic Caching

ARTICLEDEV.to AI·25/4/2026

The Caching Strategy That Cut My Social Data Costs Without Serving Stale Reports

El autor describe la evolución de su estrategia de almacenamiento en caché, pasando de un enfoque ingenuo a uno intencional que equilibra la frescura de los datos con los costos de la API para informes sociales. La clave es entender que no todos los datos sociales cambian a la misma velocidad, lo que permite un sistema más eficaz y económico.

Optimization data management Caching social data