← heapsort-ai

Memory Optimization

12 items

RESEARCH↑ trendingReddit r/MachineLearning·4/20/2026

Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]

Der Autor hat zwei aktuelle Ideen, Cartridges und STILL, zur neuronalen KV-Cache-Kompaktion und Langkontext-Inferenz implementiert und als Open Source veröffentlicht. Ziel ist es, diese Forschungsideen mit Benchmark-Code einfach überprüfbar und ausführbar zu machen und sie auch mit bestehenden Methoden zu vergleichen.

42
RESEARCH↑ trendingReddit r/MachineLearning·4/11/2026

What if your HNSW index stored 3-bit embeddings instead of float32? [R]

O texto explora uma abordagem experimental para indexação de vetores HNSW que utiliza embeddings quantizados de 3 bits, em vez de float32, para reduzir o uso de memória. A técnica, baseada em PolarQuant, permite cálculo de distância eficiente via tabelas pré-computadas, resultando em economia de memória e bom recall, apesar de um processo de construção mais lento e desafios com o ruído de quantização.

42
RESEARCHarXiv CS.LG·4/28/2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

29
RESEARCHarXiv CS.LG·vor 29T

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

Dieses Papier stellt RateQuant vor, eine Methode zur optimalen gemischt-präzisen KV-Cache-Quantisierung in großen Sprachmodellen, um Speicherengpässe zu beheben. Es befasst sich mit dem Problem der Diskrepanz des Distorsionsmodells, bei dem die Anwendung des Distorsionsmodells eines Quantisierers auf einen anderen die Leistung im Vergleich zur gleichmäßigen Quantisierung verschlechtert.

29
RESEARCHarXiv CS.CL·4/8/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
RESEARCHarXiv CS.CL·4/15/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA führt Locality Aware Sparse Attention ein, um speichergebundene Aufmerksamkeit und das KV-Inflationsproblem in blockweisen Diffusions-Sprachmodellen, insbesondere bei langen Kontexten, zu beheben. Es optimiert die Leistung durch Wiederverwendung von zwischengespeicherter Aufmerksamkeit für stabile Tokens und Anwenden von Sparse Attention nur auf aktive Tokens, wodurch die KV-Index-Ladung erheblich reduziert wird.

27
RESEARCHarXiv CS.LG·4/28/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Diese Forschung stellt die Annahme in Frage, dass PEFT gleich Speichereffizienz für On-Device-LLMs ist, und zeigt, dass bestehende Methoden zu Out-of-Memory-Fehlern führen können. Sie stellt LARS vor, ein neues Framework, das den Speicherverbrauch von der Sequenzlänge entkoppelt, indem es den Aktivierungsunterraum einschränkt, und den Speicherbedarf um durchschnittlich 33,54% reduziert.

27
RESEARCHarXiv CS.LG·4/21/2026

BASIS: Balanced Activation Sketching with Invariant Scalars for "Ghost Backpropagation"

Diese Arbeit stellt BASIS vor, einen effizienten Backpropagation-Algorithmus, der den O(L * BN) räumlichen Speicherengpass in tiefen neuronalen Netzen adressiert. Er entkoppelt den Aktivierungsspeicher vollständig von Batch- und Sequenzdimensionen, bewahrt exakte Fehlersignale, während er Gewichtsaktualisierungen mit stark komprimierten Tensoren berechnet, und schlägt neue Mechanismen zur Stabilisierung von Gradienten vor.

27
RESEARCHarXiv CS.LG·vor 29T

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Dieses Papier stellt LKV (Learned KV Eviction) vor, einen neuartigen Ansatz zur Optimierung des Key-Value (KV)-Cache-Speichers in Large Language Models (LLMs). LKV formuliert die KV-Cache-Kompression als ein durchgängiges, differenzierbares Optimierungsproblem, das Budgets und Token-Auswahl lernt, um die Einschränkungen heuristischer Methoden zu überwinden.

27