← heapsort-ai

Memory Optimization

12 items

RESEARCH↑ trendingReddit r/MachineLearning·20/4/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

El autor implementó y publicó dos ideas recientes, Cartridges y STILL, para la compactación de la caché KV neuronal y la inferencia de contexto largo. El objetivo es facilitar la inspección y ejecución de estas ideas con código abierto y benchmarks, comparándolas también con métodos existentes.

42
RESEARCH↑ trendingReddit r/MachineLearning·11/4/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

42
RESEARCHarXiv CS.LG·28/4/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

29
RESEARCHarXiv CS.LG·hace 29d

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Este artículo propone RateQuant, un método para la cuantificación óptima de caché KV de precisión mixta en grandes modelos de lenguaje para abordar los cuellos de botella de memoria. Aborda el desafío de la desajuste del modelo de distorsión, donde aplicar el modelo de distorsión de un cuantificador a otro degrada el rendimiento en comparación con la cuantificación uniforme.

29
RESEARCHarXiv CS.CL·8/4/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
RESEARCHarXiv CS.CL·15/4/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.

27
RESEARCHarXiv CS.LG·28/4/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Este trabajo desafía la creencia de que PEFT equivale a eficiencia de memoria para LLMs en dispositivos, mostrando que los métodos actuales pueden causar errores por falta de memoria. Introduce LARS, un nuevo marco que desvincula el consumo de memoria de la longitud de la secuencia al restringir el subespacio de activación, reduciendo la huella de memoria en un 33,54% en promedio.

27
RESEARCHarXiv CS.LG·21/4/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Este artículo presenta BASIS, un algoritmo eficiente de retropropagación que aborda el cuello de botella de memoria O(L * BN) en redes neuronales profundas. Desacopla la memoria de activación de las dimensiones de lote y secuencia, preservando la señal de error exacta mientras calcula actualizaciones de peso con tensores muy comprimidos y propone mecanismos novedosos para estabilizar gradientes.

27
RESEARCHarXiv CS.LG·hace 29d

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Este artículo presenta LKV (Learned KV Eviction), un nuevo enfoque para optimizar la memoria caché de Key-Value (KV) en Large Language Models (LLMs). LKV formula la compresión de caché KV como un problema de optimización diferenciable de extremo a extremo, aprendiendo presupuestos y selección de tokens para superar las limitaciones de los métodos heurísticos.

27