DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)
Este contenido describe una implementación nativa de DFlash en MLX para Apple Silicon, que acelera significativamente la generación de tokens en modelos Qwen. La técnica de decodificación especulativa logra mejoras de velocidad de hasta 3.3x, manteniendo la calidad de salida idéntica.

