Caching

12 items

ARTICLEDEV.to AI·15d atrás

DeepSeek reasonix, DeepSeek native coding agent with high caching and low cost

O autor expressa entusiasmo com o DeepSeek's Native Coding Agent, uma ferramenta de IA projetada para oferecer alto caching e baixos custos para escalar projetos. Após descobri-la em um fórum de desenvolvedores, o autor explorou seu potencial, achando sua promessa de codificação mais rápida e barata atraente.

DeepSeek Coding Agent AI Caching

ARTICLEDEV.to AI·17/04/2026

The 270-Second Rule: How to Cut Claude Code API Costs by 90% with Smart

O cache de prompt da Anthropic possui um TTL de 5 minutos, e laços de orquestração que executam mais rápido que 270 segundos pagam aproximadamente 10% dos custos totais de tokens de entrada. Este detalhe é crucial para usuários do Claude Code otimizarem significativamente os custos da API.

Claude API Anthropic Cost Optimization

ARTICLEDEV.to AI·25d atrás

Anthropic API in production: 5 things the docs don't tell you

Este artigo destaca custos ocultos de cache com a API da Anthropic em produção, especialmente ao usar experimentos A/B com prompts de sistema randomizados. Ele explica que as escritas de cache são mais caras que as leituras e aconselha colocar variações A/B em `messages[]` em vez de prompts `system` para otimizar custos.

Anthropic API production tips API usage Cost Optimization

RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artigo apresenta o cache de prefixo esparso, uma otimização para servir LLMs que armazena estados recorrentes em pontos de verificação em vez de todo o histórico de tokens. O método melhora consistentemente a fronteira de Pareto em comparação com heurísticas padrão, especialmente para casos de uso onde as requisições compartilham um prefixo não trivial.

LLMs AI infrastructure Caching performance

DOCDEV.to AI·17d atrás

Building a cost-efficient LLM caching layer in Python

Este tutorial descreve como construir uma camada de cache de LLM em Python para reduzir os custos da API. Utiliza correspondência exata via Redis e detecção semântica de duplicatas próximas via similaridade de cosseno. Esta abordagem pode gerar economias mensais significativas ao evitar chamadas redundantes à API.

LLMs Redis Cost Optimization Caching

ARTICLEDEV.to AI·29d atrás

How I Cut My API Bill in Half Without Understanding What I Was Doing

Um indivíduo reduziu significativamente sua conta de API de IA ao implementar o armazenamento em cache de prompts. Eles descobriram que grande parte do contexto de suas requisições de API era estática e poderia ser armazenada em cache, resultando em uma redução de 90% nos custos dos tokens em cache.

prompt-engineering cost reduction Caching API optimization

ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

O artigo descreve um experimento onde se usa o cache KV de um LLM (Qwen3.5-35B-A3B com 1M de tokens) como um "document store", preenchendo-o uma vez e persistindo-o para responder a consultas, eliminando a necessidade de embeddings e bancos de dados vetoriais. O agente de engenharia de IA, NEO, implementou autonomamente este sistema de Geração Aumentada por Cache em apenas 30 minutos.

AI agent Long Context Caching KV cache

ARTICLEDEV.to AI·24d atrás

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

O artigo apresenta um novo sink Redis de 60 linhas para ragvitals, projetado para utilizar instâncias Redis existentes em pilhas RAG de produção para caching de prompts ou embeddings. Esta solução baseada em Redis oferece uma alternativa eficiente a outros sinks de monitoramento para rastrear desvios de produção, evitando infraestruturas separadas e simplificando a coleta de dados.

data sink RAG Redis Production Monitoring

RESEARCHarXiv CS.LG·15d atrás

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

O artigo apresenta o Tensor Cache, um cache de dois níveis para Transformers que otimiza as caches KV. Ele combina atenção softmax de janela deslizante (L1) com uma memória de produto externo de tamanho fixo (L2) para gerenciar tokens desalojados, melhorando o acesso a evidências relevantes fora da janela de contexto.

Associative Memory deep learning AI Caching

ARTICLEDEV.to AI·16/04/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

A Anthropic reduziu silenciosamente o tempo de vida (TTL) do cache de prompts da API Claude de 1 hora para 5 minutos a partir de 6 de março de 2026, impactando drasticamente as taxas de acerto do cache e os custos dos usuários. Além disso, desabilitar a telemetria também anula o TTL de 1 hora, resultando na queda para 5 minutos.

API Anthropic Cost Optimization Caching

ARTICLEDEV.to AI·16/04/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

A Anthropic mudou silenciosamente o tempo de vida (TTL) padrão do cache de prompt do Claude API de 1 hora para 5 minutos em 6 de março de 2026. Essa alteração pode levar a taxas de acerto de cache próximas de zero e a custos de token de entrada mais altos para os usuários, pois as solicitações agora só são gratuitas se repetidas em um intervalo de 5 minutos.

Claude API Anthropic Caching

ARTICLEDEV.to AI·25/04/2026

The Caching Strategy That Cut My Social Data Costs Without Serving Stale Reports

O autor descreve a evolução de sua estratégia de cache, passando de uma abordagem ingênua para uma intencional que equilibra a atualização dos dados com os custos da API para relatórios sociais. A chave é reconhecer que nem todos os dados sociais mudam na mesma velocidade, permitindo um sistema mais eficaz e econômico.

Optimization data management Caching social data