DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)
Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.