← heapsort-ai

Memory Optimization

12 items

RESEARCH↑ trendingReddit r/MachineLearning·20/04/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

L'auteur a implémenté et mis en open source deux idées récentes, Cartridges et STILL, pour la compaction du KV-cache neuronal et l'inférence à long contexte. Le but est de rendre ces idées faciles à inspecter et à exécuter avec du code de benchmark, les comparant également aux méthodes existantes.

42
RESEARCH↑ trendingReddit r/MachineLearning·11/04/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

42
RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

29
RESEARCHarXiv CS.LG·il y a 29j

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Cet article présente RateQuant, une méthode pour l'optimisation de la quantification du cache KV à précision mixte dans les grands modèles linguistiques afin de résoudre les goulots d'étranglement de la mémoire. Il s'attaque au problème de l'inadéquation du modèle de distorsion, où l'application du modèle de distorsion d'un quantificateur à un autre dégrade les performances par rapport à la quantification uniforme.

29
RESEARCHarXiv CS.CL·08/04/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propose une attention clairsemée sensible à la localité pour résoudre le problème de l'attention liée à la mémoire et le problème d'inflation KV dans les modèles de langage de diffusion par blocs. La méthode réutilise les résultats d'attention mis en cache pour les jetons stables et applique une attention clairsemée uniquement aux jetons actifs, améliorant ainsi la vitesse et la précision.

27
ARTICLEDEV.to AI·25/04/2026

DeepSeek V4's Real Innovation Isn't Scale—It's Memory Architecture

La véritable innovation de DeepSeek V4 réside dans son architecture mémoire, et non seulement dans son échelle, rendant son contexte de 1M de tokens réellement utilisable. Grâce à des techniques de compression du cache KV comme CSA et HCA, il réduit la consommation de mémoire de près de 9 fois, surmontant les défis pratiques des modèles à long contexte.

27
RESEARCHarXiv CS.LG·28/04/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Cette recherche remet en question l'hypothèse selon laquelle la PEFT équivaut à l'efficacité de la mémoire pour les LLM sur appareil, montrant que les méthodes existantes peuvent toujours provoquer des erreurs de mémoire insuffisante. Elle introduit LARS, un nouveau cadre qui découple la consommation de mémoire de la longueur de séquence en contraignant le sous-espace d'activation, réduisant l'empreinte mémoire de 33,54% en moyenne.

27
RESEARCHarXiv CS.LG·21/04/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Cet article introduit BASIS, un algorithme de rétropropagation efficace qui résout le goulot d'étranglement de la mémoire O(L * BN) dans les réseaux neuronaux profonds. Il découple entièrement la mémoire d'activation des dimensions de lot et de séquence, conservant un signal d'erreur exact tout en calculant les mises à jour de poids avec des tenseurs fortement compressés, et propose de nouveaux mécanismes pour stabiliser les gradients.

27
RESEARCHarXiv CS.LG·il y a 29j

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Cet article introduit LKV (Learned KV Eviction), une nouvelle approche pour optimiser la mémoire cache Key-Value (KV) dans les Large Language Models (LLM). LKV formule la compression du cache KV comme un problème d'optimisation différentiable de bout en bout, apprenant les budgets et la sélection de tokens pour surmonter les limitations des méthodes heuristiques.

27