← heapsort-ai

Caching

12 items

RESEARCHarXiv CS.LG·5/8/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Dieser Artikel stellt Sparse Prefix Caching vor, eine Optimierung für das Bereitstellen von LLMs, die wiederkehrende Zustände an Prüfpunkten speichert, anstatt den gesamten Token-Verlauf zu benötigen. Die Methode verbessert die Pareto-Grenze im Vergleich zu Standard-Heuristiken, insbesondere bei Anwendungsfällen, in denen Anfragen ein nicht triviales Präfix teilen.

27
DOCDEV.to AI·vor 17T

Building a cost-efficient LLM caching layer in Python

Dieses Tutorial beschreibt den Aufbau einer kosteneffizienten LLM-Caching-Schicht in Python zur Reduzierung der API-Kosten. Es verwendet exakte Übereinstimmungen über Redis und semantische Erkennung ähnlicher Duplikate über Kosinus-Ähnlichkeit. Dieser Ansatz kann durch die Vermeidung redundanter API-Aufrufe erhebliche monatliche Einsparungen ermöglichen.

27
ARTICLEDEV.to AI·4/15/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

Der Artikel beschreibt ein Experiment, bei dem der KV-Cache eines LLM (Qwen3.5-35B-A3B mit 1M Tokens) als „Dokumentenspeicher“ genutzt wird, indem er vorab gefüllt und persistiert wird, um Anfragen zu beantworten und somit Embeddings sowie Vektordatenbanken zu eliminieren. Das KI-Ingenieur-Agent NEO implementierte dieses Cache-Augmented Generation System autonom in nur 30 Minuten.

27
ARTICLEDEV.to AI·vor 24T

A 60-line Redis sink for ragvitals: production drift in the same Redis you already run

Der Artikel stellt einen neuen 60-zeiligen Redis-Sink für ragvitals vor, der darauf ausgelegt ist, bestehende Redis-Instanzen in den meisten Produktions-RAG-Stacks für Prompt- oder Embedding-Caching zu nutzen. Diese Redis-basierte Lösung bietet eine effiziente Alternative zu anderen Überwachungs-Sinks zur Verfolgung von Produktionsdrift, wodurch separate Infrastrukturen vermieden und die Datenerfassung vereinfacht werden.

27
ARTICLEDEV.to AI·4/16/2026

Anthropic Silently Dropped Prompt Cache TTL from 1 Hour to 5 Minutes

Anthropic hat am 6. März 2026 stillschweigend die standardmäßige TTL des Prompt-Caches für seine Claude-API von 1 Stunde auf 5 Minuten geändert. Diese unangekündigte Regression kann für Nutzer zu nahezu null Cache-Trefferraten und erhöhten Kosten für Eingabe-Tokens führen, da Anfragen nun nur noch zwischengespeichert werden, wenn sie innerhalb eines 5-Minuten-Fensters wiederholt werden.

27
ARTICLEDEV.to AI·4/25/2026

The Caching Strategy That Cut My Social Data Costs Without Serving Stale Reports

Der Autor beschreibt die Entwicklung seiner Caching-Strategie von einem naiven Ansatz zu einer intentionalen Methode, die Datenaktualität und API-Kosten für soziale Berichte ausgleicht. Der Schlüssel liegt im Verständnis, dass nicht alle sozialen Daten mit der gleichen Geschwindigkeit aktualisiert werden, was ein effizienteres und kostengünstigeres System ermöglicht.

24