← heapsort-ai

Performance optimization

44 items

RESEARCHarXiv CS.LG·vor 19Std

Enabling KV Caching of Shared Prefix for Diffusion Language Models

Die Arbeit stellt "bicache" vor, die erste KV-Caching-Technik für geteilte Präfixe in Diffusions-Sprachmodellen (DLMs), die Herausforderungen angeht, bei denen bestehende LLM-Caching-Methoden aufgrund der bidirektionalen Aufmerksamkeit von DLMs versagen. Dieser neue Ansatz zielt darauf ab, einen hohen Durchsatz beim DLM-Serving zu ermöglichen, indem er Erkenntnisse über die Stabilität geteilter Präfix-KVs in flachen Schichten nutzt.

54
RESEARCH↑ trendingReddit r/MachineLearning·4/10/2026

[D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D]

Um bug de desempenho foi identificado no cuBLAS para operações de multiplicação de matrizes em GPUs NVIDIA RTX, como a 5090, utilizando apenas 40% da capacidade. O autor demonstrou um kernel customizado que supera o cuBLAS em até 70%, sugerindo otimização deficiente para essas GPUs em comparação com modelos Pro e H-series.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·vor 26T

A First Comprehensive Study of TurboQuant: Accuracy and Performance

Eine umfassende Studie zu TurboQuant vergleicht dessen Varianten (k8v4, 4bit-nc, k3v4-nc, 3bit-nc) mit FP8 für die KV-Cache-Quantisierung. FP8 wird als Standard empfohlen, da es die doppelte Kapazität mit vernachlässigbarem Genauigkeitsverlust und guter Leistung bietet. TurboQuant-Varianten zeigen begrenzte Vorteile oder erhebliche Einbußen bei Genauigkeit und Leistung, wobei 4bit-nc eine Option für speicherbeschränkte Szenarien ist.

A First Comprehensive Study of TurboQuant: Accuracy and Performance
43
NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20

Moonshot AI hat FlashKDA als Open Source veröffentlicht, einen CUTLASS C++ Kernel für Kimi Delta Attention, der Leistungssteigerungen von bis zu 2.22x gegenüber der Triton-Baseline auf H20-Benchmarks bietet. Diese Implementierung verbessert lineare Aufmerksamkeitsarchitekturen.

Moonshot open-sourced FlashKDA, CUTLASS kernels for Kimi Delta Attention, up to 2.22x over the Triton baseline on H20
42
RESEARCH↑ trendingReddit r/MachineLearning·5/4/2026

Why SSMs struggle in parameter-constrained training: empirical findings at 25M parameters [R]

Dieser Beitrag beschreibt empirische Erkenntnisse aus OpenAIs Parameter Golf-Wettbewerb und erklärt, warum State Space Models (SSMs) gegenüber Transformatoren bei parameter- und zeitbeschränkten Trainingsbedingungen strukturell benachteiligt sind. Hauptprobleme sind eine schlechtere Komprimierung der in_proj-Gewichte von SSMs und architektonische Umkehrmeldungen bei größeren Vokabulargrößen, ergänzt durch Einblicke aus Mamba-3 Triton-Kernel-Experimenten.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Need a second pair of eyes, this Qwen3.6 27B quant recipe consistently thinks less and is correct

Der Autor untersucht, warum ein spezifisches Qwen3.6 27B INT8 Autoround Quantisierungsrezept andere übertrifft, wobei er beobachtet, dass das Modell weniger "denkt", aber bessere Ergebnisse in Benchmarks liefert. Er replizierte diese Leistung dann mit einer neuen GGUF-Quantisierung und stellte fest, dass beide durchweg schneller zu Antworten kommen als UD Q8 K XL.

42
ARTICLE↑ trendingReddit r/MachineLearning·4/13/2026

TurboOCR: 270–1200 img/s OCR with Paddle + TensorRT (C++/CUDA, FP16) [P]

TurboOCR erreicht 270–1200 Bilder/s OCR durch Optimierung von PaddleOCR mit C++/CUDA, FP16 TensorRT, Fused Kernels und Batch-Verarbeitung, wodurch die Leistungsengpässe von VLM-basierten Ansätzen behoben werden. Diese Lösung verbessert den Durchsatz für die großflächige Dokumentenverarbeitung drastisch und eignet sich für Echtzeit-RAG-Anwendungen.

42
DOCDEV.to AI·4/22/2026

Hands-On Performance: Diagnosing and Fixing Databricks SQL Bottlenecks

Dieser praxisnahe Leitfaden konzentriert sich auf die Leistungsoptimierung in Databricks SQL und beschreibt, wie Engpässe diagnostiziert und behoben werden können. Er lehrt Methoden wie die Reduzierung von Datenscans, die Optimierung von Joins und die Nutzung von intelligentem Caching, um Abfragen schneller und kostengünstiger zu machen und häufige Fehler zu vermeiden, die zu hoher Latenz und Ressourcenverschwendung führen.

31
RESEARCHarXiv CS.CL·4/6/2026

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

29
ARTICLEDEV.to AI·4/23/2026

Your Customer Service Bot Is Slow Because It's Single-Threaded

Dieser Artikel beleuchtet, dass Single-Threaded-Kundenservice-Bots aufgrund sequentieller LLM-Aufrufe langsam sind, was zu Latenzzeiten von bis zu 12 Sekunden führt. Er schlägt ein paralleles Sub-Agenten-Muster mit LangGraph und LangSmith vor, um Forschungsaufgaben gleichzeitig auszuführen und die Antwortzeiten erheblich auf etwa 6,5 Sekunden zu reduzieren.

28
ARTICLEDEV.to AI·4/22/2026

The Parallelization Trap: Why Running More Agents Simultaneously Often Makes Things Worse

Die "Parallelisierungsfalle" beschreibt, wie die gleichzeitige Ausführung mehrerer KI-Agenten die Systemleistung paradoxerweise verringern kann, verursacht durch Koordinations- und Kohärenzprobleme. Dies geschieht, da Agenten um einen gemeinsamen Kontext konkurrieren, was zu veralteten oder widersprüchlichen Informationen führt.

28
RESEARCHarXiv CS.LG·4/23/2026

Super Apriel: One Checkpoint, Many Speeds

Super Apriel, ein 15 Milliarden Parameter großer Supernet, wurde veröffentlicht, der vier trainierte Mixer-Optionen pro Decoder-Schicht bietet, um mehrere Geschwindigkeits-/Qualitätseinstellungen aus einem einzigen Checkpoint zu ermöglichen. Dies führt zu einem 2.9x bis 10.7x höheren Decodierungsdurchsatz bei einer Qualitätserhaltung von 96% bis 77% und ermöglicht auch die spekulative Decodierung ohne ein separates Entwurfsmodell.

28