Memory Optimization

12 items

RESEARCH↑ trendingReddit r/MachineLearning·4/20/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

Der Autor hat zwei aktuelle Ideen, Cartridges und STILL, zur neuronalen KV-Cache-Kompaktion und Langkontext-Inferenz implementiert und als Open Source veröffentlicht. Ziel ist es, diese Forschungsideen mit Benchmark-Code einfach überprüfbar und ausführbar zu machen und sie auch mit bestehenden Methoden zu vergleichen.

neural networks Open Source research Memory Optimization

RESEARCH↑ trendingReddit r/MachineLearning·4/11/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

HNSW Memory Optimization quantization Vector Indexing

RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

deep learning Memory Optimization large language models Transformers

RESEARCHarXiv CS.LG·vor 29T

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Dieses Papier stellt RateQuant vor, eine Methode zur optimalen gemischt-präzisen KV-Cache-Quantisierung in großen Sprachmodellen, um Speicherengpässe zu beheben. Es befasst sich mit dem Problem der Diskrepanz des Distorsionsmodells, bei dem die Anwendung des Distorsionsmodells eines Quantisierers auf einen anderen die Leistung im Vergleich zur gleichmäßigen Quantisierung verschlechtert.

Memory Optimization quantization AI Research LLM

RESEARCHarXiv CS.CL·4/8/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

Single GPU Training Memory Optimization GPU Acceleration large language models

RESEARCHarXiv CS.CL·4/15/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA führt Locality Aware Sparse Attention ein, um speichergebundene Aufmerksamkeit und das KV-Inflationsproblem in blockweisen Diffusions-Sprachmodellen, insbesondere bei langen Kontexten, zu beheben. Es optimiert die Leistung durch Wiederverwendung von zwischengespeicherter Aufmerksamkeit für stabile Tokens und Anwenden von Sparse Attention nur auf aktive Tokens, wodurch die KV-Index-Ladung erheblich reduziert wird.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·4/25/2026

DeepSeek V4's Real Innovation Isn't Scale—It's Memory Architecture

DeepSeek V4s wahre Innovation liegt in seiner Speicherarchitektur, nicht nur in seiner Skalierung, wodurch sein 1M-Token-Kontext praktisch nutzbar wird. Durch KV-Cache-Komprimierungstechniken wie CSA und HCA erreicht es eine fast 9-fache Speicherreduzierung und überwindet praktische Herausforderungen von Langkontextmodellen.

AI models LLMs deep learning Memory Optimization

ARTICLEDEV.to AI·5/1/2026

2 Lines of Code Saved 6.4x Memory on My Snake AI

Der Autor beschreibt, wie ein 'Richtungs'-Kanal in der Zustandsdarstellung seiner Snake AI einen 6,4-fachen Speicher-Overhead verursachte. Die Verwendung von uint8 für nur 2 Bit Information verhinderte eine effiziente Bit-Verpackung, was zu 1.600 Bytes pro Zustand statt 250 führte.

Memory Optimization Data Representation AI

RESEARCHarXiv CS.LG·4/28/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Diese Forschung stellt die Annahme in Frage, dass PEFT gleich Speichereffizienz für On-Device-LLMs ist, und zeigt, dass bestehende Methoden zu Out-of-Memory-Fehlern führen können. Sie stellt LARS vor, ein neues Framework, das den Speicherverbrauch von der Sequenzlänge entkoppelt, indem es den Aktivierungsunterraum einschränkt, und den Speicherbedarf um durchschnittlich 33,54% reduziert.

Memory Optimization on-device AI Fine-tuning PEFT

RESEARCHarXiv CS.LG·4/21/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Diese Arbeit stellt BASIS vor, einen effizienten Backpropagation-Algorithmus, der den O(L * BN) räumlichen Speicherengpass in tiefen neuronalen Netzen adressiert. Er entkoppelt den Aktivierungsspeicher vollständig von Batch- und Sequenzdimensionen, bewahrt exakte Fehlersignale, während er Gewichtsaktualisierungen mit stark komprimierten Tensoren berechnet, und schlägt neue Mechanismen zur Stabilisierung von Gradienten vor.

neural networks deep learning Memory Optimization backpropagation

RESEARCHarXiv CS.LG·vor 29T

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Dieses Papier stellt LKV (Learned KV Eviction) vor, einen neuartigen Ansatz zur Optimierung des Key-Value (KV)-Cache-Speichers in Large Language Models (LLMs). LKV formuliert die KV-Cache-Kompression als ein durchgängiges, differenzierbares Optimierungsproblem, das Budgets und Token-Auswahl lernt, um die Einschränkungen heuristischer Methoden zu überwinden.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.LG·4/30/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Diese Arbeit überdenkt die KV-Cache-Eviction für LLMs mittels eines informationstheoretischen Ziels, das aus dem Informationsengpassprinzip abgeleitet wurde. Sie stellt CapKV vor, eine neue kapazitätsbewusste Methode, die Informationen bewahrt und bestehende heuristische Strategien übertrifft.

Memory Optimization machine learning large language models AI inference