Long Context

6 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

Gemma 4 31B vs Qwen 3.5 27B: Which is best for long context worklows? My THOUGHTS...

El artículo compara los modelos Gemma 4 31B y Qwen 3.5 27B, considerándolos los mejores para uso local en tarjetas gráficas de 24GB. El autor elogia la capacidad de Qwen 3.5 27B para manejar el razonamiento y el análisis de contextos largos sin alucinaciones, lo que representa una evolución significativa.

GPU Gemma 4 31B Long Context Qwen 3.5 27B

RESEARCHarXiv CS.CL·7/4/2026

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networks language models Long Context attention mechanisms

ARTICLEDEV.to AI·hace 26d

The Death of RAG? Long-Context Windows vs. Vector Databases

El artículo explora si la Generación Aumentada por Recuperación (RAG) está quedando obsoleta debido a las grandes ventanas de contexto de los nuevos LLMs. Se argumenta que RAG sigue siendo relevante por su rentabilidad, menor latencia y eficiencia en el manejo de datos propietarios que cambian con frecuencia.

AI architecture LLMs Vector Databases RAG

RESEARCHarXiv CS.CL·15/4/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·15/4/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

El artículo describe un experimento donde se utiliza el caché KV de un LLM (Qwen3.5-35B-A3B con 1M de tokens) como un "almacén de documentos", precargándolo una vez y persistiendo para responder consultas, eliminando embeddings y bases de datos vectoriales. El agente de ingeniería de IA, NEO, implementó autónomamente este sistema de Generación Aumentada por Caché en solo 30 minutos.

AI agent Long Context Caching KV cache

RESEARCHTogether AI Blog·26/3/2026

Plan, divide, and conquer: How weak models excel at long context tasks

Este contenido describe cómo un framework "Dividir y Conquistar" permite que modelos de lenguaje más pequeños superen a modelos más grandes como GPT-4o en tareas de contexto largo. Aborda la degradación del rendimiento de los LLM con ventanas de contexto crecientes dividiendo documentos en fragmentos paralelos.

model performance LLMs Llama 3 Long Context