NEWS↑ trending42

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Reddit r/LocalLLaMA·27. April 2026

Luce DFlash stellt einen GGUF-Port der DFlash spekulativen Dekodierung für Qwen3.6-27B vor, der auf einer einzelnen RTX 3090 fast den doppelten Durchsatz erreicht. Dieser eigenständige C++/CUDA-Stack, als MIT-lizenzierte Open-Source-Software verfügbar, steigert die LLM-Leistung auf Consumer-Hardware erheblich.

Open Source Optimization performance Speculative Decoding LLM

Original lesen ↗