Memory Optimization

12 items

RESEARCH↑ trendingReddit r/MachineLearning·20/04/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

L'auteur a implémenté et mis en open source deux idées récentes, Cartridges et STILL, pour la compaction du KV-cache neuronal et l'inférence à long contexte. Le but est de rendre ces idées faciles à inspecter et à exécuter avec du code de benchmark, les comparant également aux méthodes existantes.

neural networks Open Source research Memory Optimization

RESEARCH↑ trendingReddit r/MachineLearning·11/04/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

HNSW Memory Optimization quantization Vector Indexing

RESEARCHarXiv CS.LG·28/04/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·il y a 29j

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Cet article présente RateQuant, une méthode pour l'optimisation de la quantification du cache KV à précision mixte dans les grands modèles linguistiques afin de résoudre les goulots d'étranglement de la mémoire. Il s'attaque au problème de l'inadéquation du modèle de distorsion, où l'application du modèle de distorsion d'un quantificateur à un autre dégrade les performances par rapport à la quantification uniforme.

Memory Optimization quantization AI Research LLM

RESEARCHarXiv CS.CL·08/04/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

Single GPU Training Memory Optimization GPU Acceleration large language models

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propose une attention clairsemée sensible à la localité pour résoudre le problème de l'attention liée à la mémoire et le problème d'inflation KV dans les modèles de langage de diffusion par blocs. La méthode réutilise les résultats d'attention mis en cache pour les jetons stables et applique une attention clairsemée uniquement aux jetons actifs, améliorant ainsi la vitesse et la précision.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·25/04/2026

DeepSeek V4's Real Innovation Isn't Scale—It's Memory Architecture

La véritable innovation de DeepSeek V4 réside dans son architecture mémoire, et non seulement dans son échelle, rendant son contexte de 1M de tokens réellement utilisable. Grâce à des techniques de compression du cache KV comme CSA et HCA, il réduit la consommation de mémoire de près de 9 fois, surmontant les défis pratiques des modèles à long contexte.

AI models LLMs deep learning Memory Optimization

ARTICLEDEV.to AI·01/05/2026

2 Lines of Code Saved 6.4x Memory on My Snake AI

L'auteur explique comment un canal de 'direction' dans la représentation d'état de son IA de Serpent a entraîné une surcharge mémoire de 6,4x. L'utilisation d'uint8 pour seulement 2 bits d'information a empêché un compactage efficace des bits, résultant en 1 600 octets par état au lieu de 250.

Memory Optimization Data Representation AI

RESEARCHarXiv CS.LG·28/04/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Cette recherche remet en question l'hypothèse selon laquelle la PEFT équivaut à l'efficacité de la mémoire pour les LLM sur appareil, montrant que les méthodes existantes peuvent toujours provoquer des erreurs de mémoire insuffisante. Elle introduit LARS, un nouveau cadre qui découple la consommation de mémoire de la longueur de séquence en contraignant le sous-espace d'activation, réduisant l'empreinte mémoire de 33,54% en moyenne.

Memory Optimization on-device AI Fine-tuning PEFT

RESEARCHarXiv CS.LG·21/04/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Cet article introduit BASIS, un algorithme de rétropropagation efficace qui résout le goulot d'étranglement de la mémoire O(L * BN) dans les réseaux neuronaux profonds. Il découple entièrement la mémoire d'activation des dimensions de lot et de séquence, conservant un signal d'erreur exact tout en calculant les mises à jour de poids avec des tenseurs fortement compressés, et propose de nouveaux mécanismes pour stabiliser les gradients.

neural networks deep learning Memory Optimization backpropagation

RESEARCHarXiv CS.LG·il y a 29j

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Cet article introduit LKV (Learned KV Eviction), une nouvelle approche pour optimiser la mémoire cache Key-Value (KV) dans les Large Language Models (LLM). LKV formule la compression du cache KV comme un problème d'optimisation différentiable de bout en bout, apprenant les budgets et la sélection de tokens pour surmonter les limitations des méthodes heuristiques.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.LG·30/04/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Ce travail repense l'éviction du cache KV pour les LLM via un objectif informationnel-théorique dérivé du principe du Goulot d'Information. Il présente CapKV, une nouvelle méthode consciente de la capacité qui préserve l'information, surpassant les stratégies heuristiques existantes.

Memory Optimization machine learning large language models AI inference