RESEARCH↑ trending43
DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)
Reddit r/LocalLLaMA·11 de abril de 2026
Este conteúdo detalha uma implementação nativa de DFlash em MLX para Apple Silicon, demonstrando ganhos de velocidade significativos na geração de tokens para modelos Qwen. A técnica de decodificação especulativa atinge acelerações de até 3.3x, com a qualidade da saída idêntica ao baseline.
Apple SiliconMLXQwenLLM performancespeculative decoding
Ler original ↗