Long Context

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

O artigo compara os modelos Gemma 4 31B e Qwen 3.5 27B, considerando-os os melhores para uso local em placas de 24GB. O autor elogia a capacidade do Qwen 3.5 27B de lidar com raciocínio e análise de contextos longos sem alucinações, marcando uma evolução significativa em relação a modelos anteriores.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCHarXiv CS.CL·07/04/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

ARTICLEDEV.to AI·26d atrás

The Death of RAG? Long-Context Windows vs. Vector Databases

O artigo questiona se a Geração Aumentada por Recuperação (RAG) está a tornar-se obsoleta com as janelas de contexto longas dos novos LLMs. Argumenta que o RAG continua relevante devido à sua eficácia em termos de custo, menor latência e eficiência na gestão de dados proprietários que mudam frequentemente.

AI architecture LLMs Vector Databases RAG

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propõe uma atenção esparsa com consciência de localidade para resolver o gargalo de memória e o problema de KV Inflation em modelos de linguagem de difusão por blocos. A técnica reutiliza resultados de atenção armazenados em cache para tokens estáveis e aplica atenção esparsa apenas a tokens ativos, otimizando velocidade e precisão em contextos longos.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

O artigo descreve um experimento onde se usa o cache KV de um LLM (Qwen3.5-35B-A3B com 1M de tokens) como um "document store", preenchendo-o uma vez e persistindo-o para responder a consultas, eliminando a necessidade de embeddings e bancos de dados vetoriais. O agente de engenharia de IA, NEO, implementou autonomamente este sistema de Geração Aumentada por Cache em apenas 30 minutos.

AI agent Long Context Caching KV cache

RESEARCHTogether AI Blog·26/03/2026

Plan, divide, and conquer: How weak models excel at long context tasks

Este conteúdo descreve como um framework "Dividir e Conquistar" permite que modelos de linguagem menores superem modelos maiores como GPT-4o em tarefas de contexto longo. Ele aborda a degradação de desempenho de LLMs em janelas de contexto crescentes através da quebra de documentos em partes paralelas.

model performance LLMs Llama 3 Long Context