Memory Optimization

12 items

RESEARCH↑ trendingReddit r/MachineLearning·20/4/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

El autor implementó y publicó dos ideas recientes, Cartridges y STILL, para la compactación de la caché KV neuronal y la inferencia de contexto largo. El objetivo es facilitar la inspección y ejecución de estas ideas con código abierto y benchmarks, comparándolas también con métodos existentes.

neural networks Open Source research Memory Optimization

RESEARCH↑ trendingReddit r/MachineLearning·11/4/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

HNSW Memory Optimization quantization Vector Indexing

RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·hace 29d

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Este artículo propone RateQuant, un método para la cuantificación óptima de caché KV de precisión mixta en grandes modelos de lenguaje para abordar los cuellos de botella de memoria. Aborda el desafío de la desajuste del modelo de distorsión, donde aplicar el modelo de distorsión de un cuantificador a otro degrada el rendimiento en comparación con la cuantificación uniforme.

Memory Optimization quantization AI Research LLM

RESEARCHarXiv CS.CL·8/4/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

Single GPU Training Memory Optimization GPU Acceleration large language models

RESEARCHarXiv CS.CL·15/4/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·25/4/2026

DeepSeek V4's Real Innovation Isn't Scale—It's Memory Architecture

La verdadera innovación de DeepSeek V4 reside en su arquitectura de memoria, no solo en su escala, lo que hace que su contexto de 1M de tokens sea realmente utilizable. Gracias a técnicas de compresión de caché KV como CSA y HCA, logra una reducción de memoria de casi 9 veces, superando los desafíos prácticos de los modelos de contexto largo.

AI models LLMs deep learning Memory Optimization

ARTICLEDEV.to AI·1/5/2026

2 Lines of Code Saved 6.4x Memory on My Snake AI

El autor describe cómo un canal de 'dirección' en la representación del estado de su IA de Serpiente causó una sobrecarga de memoria de 6.4x. El uso de uint8 para solo 2 bits de información impidió el empaquetado eficiente de bits, lo que llevó a 1.600 bytes por estado en lugar de 250.

Memory Optimization Data Representation AI

RESEARCHarXiv CS.LG·28/4/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Este trabajo desafía la creencia de que PEFT equivale a eficiencia de memoria para LLMs en dispositivos, mostrando que los métodos actuales pueden causar errores por falta de memoria. Introduce LARS, un nuevo marco que desvincula el consumo de memoria de la longitud de la secuencia al restringir el subespacio de activación, reduciendo la huella de memoria en un 33,54% en promedio.

Memory Optimization on-device AI Fine-tuning PEFT

RESEARCHarXiv CS.LG·21/4/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Este artículo presenta BASIS, un algoritmo eficiente de retropropagación que aborda el cuello de botella de memoria O(L * BN) en redes neuronales profundas. Desacopla la memoria de activación de las dimensiones de lote y secuencia, preservando la señal de error exacta mientras calcula actualizaciones de peso con tensores muy comprimidos y propone mecanismos novedosos para estabilizar gradientes.

neural networks deep learning Memory Optimization backpropagation

RESEARCHarXiv CS.LG·hace 29d

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Este artículo presenta LKV (Learned KV Eviction), un nuevo enfoque para optimizar la memoria caché de Key-Value (KV) en Large Language Models (LLMs). LKV formula la compresión de caché KV como un problema de optimización diferenciable de extremo a extremo, aprendiendo presupuestos y selección de tokens para superar las limitaciones de los métodos heurísticos.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.LG·30/4/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Este trabajo replantea la eliminación de caché KV para LLMs utilizando un objetivo de información-teórico derivado del principio del Cuello de Botella de la Información. Introduce CapKV, un nuevo método consciente de la capacidad que preserva la información, superando las estrategias heurísticas existentes.

Memory Optimization machine learning large language models AI inference