Long Context

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

L'article compare les modèles Gemma 4 31B et Qwen 3.5 27B, les jugeant les meilleurs pour une utilisation locale sur des cartes graphiques de 24 Go. L'auteur loue la capacité de Qwen 3.5 27B à gérer le raisonnement et l'analyse de contextes longs sans hallucinations, marquant une évolution significative.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

ARTICLEDEV.to AI·il y a 26j

The Death of RAG? Long-Context Windows vs. Vector Databases

L'article examine si la Génération Augmentée par Récupération (RAG) est rendue obsolète par les grandes fenêtres contextuelles des nouveaux LLM. Il soutient que le RAG reste pertinent en raison de son efficacité en termes de coûts, de sa latence réduite et de son efficacité dans la gestion des données propriétaires fréquemment mises à jour.

AI architecture LLMs Vector Databases RAG

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propose une attention clairsemée sensible à la localité pour résoudre le problème de l'attention liée à la mémoire et le problème d'inflation KV dans les modèles de langage de diffusion par blocs. La méthode réutilise les résultats d'attention mis en cache pour les jetons stables et applique une attention clairsemée uniquement aux jetons actifs, améliorant ainsi la vitesse et la précision.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

L'article décrit une expérience où le cache KV d'un LLM (Qwen3.5-35B-A3B avec 1M de tokens) est utilisé comme "magasin de documents" en le préchargeant une fois et en le persistant pour répondre aux requêtes, éliminant les embeddings et les bases de données vectorielles. L'agent d'ingénierie IA, NEO, a implémenté de manière autonome ce système de Génération Augmentée par Cache en seulement 30 minutes.

AI agent Long Context Caching KV cache

RESEARCHTogether AI Blog·26/03/2026

Plan, divide, and conquer: How weak models excel at long context tasks

Ce contenu explique comment un framework "Diviser pour Régner" permet aux modèles de langage plus petits de surpasser des modèles plus grands comme GPT-4o sur des tâches à contexte long. Il s'attaque à la dégradation des performances des LLM avec des fenêtres de contexte croissantes en divisant les documents en morceaux parallèles.

model performance LLMs Llama 3 Long Context