RESEARCH↑ trending43

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Reddit r/LocalLLaMA·11 de abril de 2026

Este conteúdo detalha uma implementação nativa de DFlash em MLX para Apple Silicon, demonstrando ganhos de velocidade significativos na geração de tokens para modelos Qwen. A técnica de decodificação especulativa atinge acelerações de até 3.3x, com a qualidade da saída idêntica ao baseline.

Apple SiliconMLXQwenLLM performancespeculative decoding

Ler original ↗