← heapsort-ai

Caching

12 items

RESEARCHarXiv CS.LG·08/05/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artigo apresenta o cache de prefixo esparso, uma otimização para servir LLMs que armazena estados recorrentes em pontos de verificação em vez de todo o histórico de tokens. O método melhora consistentemente a fronteira de Pareto em comparação com heurísticas padrão, especialmente para casos de uso onde as requisições compartilham um prefixo não trivial.

27
DOCDEV.to AI·17d atrás

Building a cost-efficient LLM caching layer in Python

Este tutorial descreve como construir uma camada de cache de LLM em Python para reduzir os custos da API. Utiliza correspondência exata via Redis e detecção semântica de duplicatas próximas via similaridade de cosseno. Esta abordagem pode gerar economias mensais significativas ao evitar chamadas redundantes à API.

27
ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

O artigo descreve um experimento onde se usa o cache KV de um LLM (Qwen3.5-35B-A3B com 1M de tokens) como um "document store", preenchendo-o uma vez e persistindo-o para responder a consultas, eliminando a necessidade de embeddings e bancos de dados vetoriais. O agente de engenharia de IA, NEO, implementou autonomamente este sistema de Geração Aumentada por Cache em apenas 30 minutos.

27
ARTICLEDEV.to AI·24d atrás

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

O artigo apresenta um novo sink Redis de 60 linhas para ragvitals, projetado para utilizar instâncias Redis existentes em pilhas RAG de produção para caching de prompts ou embeddings. Esta solução baseada em Redis oferece uma alternativa eficiente a outros sinks de monitoramento para rastrear desvios de produção, evitando infraestruturas separadas e simplificando a coleta de dados.

27
ARTICLEDEV.to AI·16/04/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

A Anthropic mudou silenciosamente o tempo de vida (TTL) padrão do cache de prompt do Claude API de 1 hora para 5 minutos em 6 de março de 2026. Essa alteração pode levar a taxas de acerto de cache próximas de zero e a custos de token de entrada mais altos para os usuários, pois as solicitações agora só são gratuitas se repetidas em um intervalo de 5 minutos.

27