NEWS↑ trending61

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Reddit r/LocalLLaMA·27 de abril de 2026

Luce DFlash apresenta uma porta GGUF da decodificação especulativa DFlash para Qwen3.6-27B, alcançando quase o dobro de throughput em uma única RTX 3090. Este stack C++/CUDA standalone, disponível como projeto de código aberto com licença MIT, melhora significativamente o desempenho de LLMs em hardware de consumo.

open-sourceoptimizationperformancespeculative decodingLLM

Ler original ↗