DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)
Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.
![Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]](/cdn-cgi/image/width=3840,quality=75,format=webp/https://preview.redd.it/vutakjb0vgyg1.png?width=140&height=59&auto=webp&s=08ecb95fd65ade25c924988f1992e9abe3d79f62)