NEWS↑ trending61
Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090
Reddit r/LocalLLaMA·27 de abril de 2026

Luce DFlash apresenta uma porta GGUF da decodificação especulativa DFlash para Qwen3.6-27B, alcançando quase o dobro de throughput em uma única RTX 3090. Este stack C++/CUDA standalone, disponível como projeto de código aberto com licença MIT, melhora significativamente o desempenho de LLMs em hardware de consumo.
open-sourceoptimizationperformancespeculative decodingLLM
Ler original ↗