RESEARCH↑ trending43
DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)
Reddit r/LocalLLaMA·11 avril 2026
Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.
Lire l'original ↗