← heapsort-ai

Context window

22 items

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.

42
ARTICLEDEV.to AI·il y a 3j

AI agent memory management: beyond the context window

Cet article traite du problème critique des agents d'IA qui oublient des informations en raison des limitations de la fenêtre de contexte, où les messages plus anciens sont évincés. Il souligne qu'il s'agit d'un problème d'architecture de mémoire, et non d'hallucination, et propose d'aller au-delà de la considération de la fenêtre de contexte comme la seule mémoire de l'agent.

31
ARTICLEDEV.to AI·11/04/2026

The Context Window Trap: Why More AI Context is Costing You More Money

O autor relata sua descoberta de que fornecer contexto excessivo aos modelos de IA, como Claude e GPT-4, para desenvolvimento de software, na verdade aumentava os custos em vez de melhorar a eficiência. Ao usar sua ferramenta TokenBar para monitorar o uso de tokens, ele percebeu que "dumps" de contexto massivos, de 8.000-12.000 tokens, eram ineficientes e caros.

29
ARTICLEDEV.to AI·21/04/2026

How we handle LLM context window limits without losing conversation quality

Cet article traite du défi critique des limites de la fenêtre de contexte des LLM, qui fait que les chatbots oublient des informations et que les agents perdent leurs objectifs, même avec des modèles offrant des fenêtres plus grandes. Il souligne que la simple expansion des fenêtres de contexte est insuffisante en raison de coûts prohibitifs et d'une latence accrue, promettant de partager des stratégies de production et leurs compromis.

29
ARTICLEDEV.to AI·il y a 6j

The Harness Has a Token Budget

Le projet CLAUDE.md a dépassé son budget de jetons, entraînant l'agent IA à manquer des règles importantes en raison d'une surcharge de contexte. La conclusion est que le "harness" a un budget de jetons, et chaque ligne supplémentaire affecte la capacité de l'agent à traiter les informations spécifiques à la tâche.

28
CASEDEV.to AI·10/04/2026

My AI pipeline had a 1M token context window. The output still got worse.

Um pipeline de investigação AIOps, que utilizava uma janela de contexto de 1M tokens com Gemini, viu sua qualidade de saída piorar devido à má seleção de contexto. A proporção fixa de carregamento de código irrelevante, especialmente de um repositório legado, estava degradando o desempenho do modelo, evidenciando que a qualidade do contexto é mais importante que a quantidade.

27
ARTICLEDEV.to AI·27/04/2026

MEMORY.md Every Turn? That’s Noise, Not Memory.

Les grands modèles de langage nécessitent un apport explicite de l'historique, car ils ne retiennent pas la mémoire intrinsèquement. Les méthodes courantes comme l'expansion des fenêtres de contexte ou le collage de mémoire fixe à chaque tour sont inefficaces et problématiques à grande échelle, augmentant les coûts, ralentissant l'inférence et réduisant la qualité.

27
NEWSDEV.to AI·il y a 12j

2026-05-28 Token Ledger Digest

Le Token Ledger Digest du 28 mai 2026 met en lumière les changements concernant les modèles d'IA, y compris la réduction de prix pour la préversion de Tencent Hy3 et la sortie du nouveau modèle gratuit Kimi K2.6 de MoonshotAI. En outre, le modèle gratuit CoBuddy de Baidu Qianfan a été retiré du catalogue.

27
ARTICLEDEV.to AI·il y a 8j

LLM, Model, Token, Context Window

Ce contenu explique les Large Language Models (LLM) comme de vastes réseaux neuronaux entraînés sur d'immenses ensembles de données, contrastant leur génération prédictive de jetons avec les requêtes de bases de données traditionnelles. Il décrit l'architecture du système d'IA comme un modèle client-serveur, reliant les interfaces de chat, les fenêtres de contexte et le LLM lui-même.

27
ARTICLEDEV.to AI·15/04/2026

GPT-6 just merged ChatGPT, Codex, and a browser into one agent.

Le nouveau GPT-6 d'OpenAI unifie les fonctionnalités de chat, de génération de code et de navigation web en un seul agent, grâce à un modèle de base puissant et une architecture de raisonnement à deux niveaux. Ce modèle offre une fenêtre de contexte réelle et utilisable de 2M tokens, améliorant considérablement son application pour des tâches complexes comme la télémétrie IoT.

27
ARTICLEDEV.to AI·09/04/2026

Claude Code Forgot My Code. Here's Why.

O artigo explica por que o Claude Code "esquece" o código do usuário: a janela de contexto finita é preenchida por saídas extensas de comandos CLI (como npm install), comprimindo ou descartando o código real. Isso mostra como o "ruído" do terminal pode consumir rapidamente a capacidade de contexto de uma IA.

26