RESEARCH↑ trending43

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Reddit r/LocalLLaMA·11 avril 2026

Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.

apple-silicon MLX Qwen LLM performance Speculative Decoding

Lire l'original ↗