DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)
Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.

