Long Context

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

Der Artikel vergleicht Gemma 4 31B und Qwen 3.5 27B als die besten Modelle für den lokalen Einsatz auf 24GB GPUs. Der Autor lobt Qwen 3.5 27B für seine überragende Denkfähigkeit und Long-Context-Analyse ohne Halluzinationen, was eine bedeutende Entwicklung darstellt.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCHarXiv CS.CL·4/7/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

ARTICLEDEV.to AI·vor 26T

The Death of RAG? Long-Context Windows vs. Vector Databases

Der Artikel diskutiert, ob Retrieval-Augmented Generation (RAG) durch die großen Kontextfenster neuer LLMs überflüssig wird. Er argumentiert, dass RAG aufgrund seiner Kosteneffizienz, geringeren Latenz und Effizienz bei der Verwaltung häufig aktualisierter proprietärer Daten weiterhin relevant ist.

AI architecture LLMs Vector Databases RAG

RESEARCHarXiv CS.CL·4/15/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA führt Locality Aware Sparse Attention ein, um speichergebundene Aufmerksamkeit und das KV-Inflationsproblem in blockweisen Diffusions-Sprachmodellen, insbesondere bei langen Kontexten, zu beheben. Es optimiert die Leistung durch Wiederverwendung von zwischengespeicherter Aufmerksamkeit für stabile Tokens und Anwenden von Sparse Attention nur auf aktive Tokens, wodurch die KV-Index-Ladung erheblich reduziert wird.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·4/15/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

Der Artikel beschreibt ein Experiment, bei dem der KV-Cache eines LLM (Qwen3.5-35B-A3B mit 1M Tokens) als „Dokumentenspeicher“ genutzt wird, indem er vorab gefüllt und persistiert wird, um Anfragen zu beantworten und somit Embeddings sowie Vektordatenbanken zu eliminieren. Das KI-Ingenieur-Agent NEO implementierte dieses Cache-Augmented Generation System autonom in nur 30 Minuten.

AI agent Long Context Caching KV cache

RESEARCHTogether AI Blog·3/26/2026

Plan, divide, and conquer: How weak models excel at long context tasks

Dieser Inhalt beschreibt ein "Teile und Herrsche"-Framework, das es kleineren Sprachmodellen ermöglicht, größere wie GPT-4o bei Aufgaben mit langem Kontext zu übertreffen. Es begegnet der Leistungsverschlechterung von LLMs bei wachsenden Kontextfenstern, indem Dokumente in parallele Abschnitte zerlegt werden.

model performance LLMs Llama 3 Long Context