MLX

4 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/11/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.

apple-silicon MLX Qwen LLM performance

NEWS↑ trendingReddit r/LocalLLaMA·vor 18T

New Release of ROCm based MLX LLM Engine - lemon-mlx-engine

Die lemon-mlx-engine hat TheRock / ROCm 7.13 integriert, wodurch Benutzer das neueste ROCm mit der MLX-Engine auf ihrer lokalen Hardware ausprobieren können. Dieses Update enthält auch verschiedene Fehler- und Kernel-Korrekturen für Qwen3-, 3.5- und 3.6-MoE- sowie dichte Modelle.

ROCm Software release MLX AI development

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Gemma 4 - MLX doesn't seem better than GGUF

Ein Benutzer vergleicht die Leistung des Gemma 4-26b-a4b Modells in MLX- und GGUF-Versionen auf einem M1 Max mit 32GB RAM. Tests mit einem 3k Token Prompt zeigen, dass GGUF sowohl bei der Prompt-Verarbeitung als auch bei den Tokens pro Sekunde etwas schneller ist.

model performance apple-silicon Gemma MLX

NEWSDEV.to AI·4/26/2026

DeepSeek-V4 Ported to MLX for Apple Silicon Inference

DeepSeek-V4 wurde auf Apples MLX-Framework portiert, sodass das große Sprachmodell auf Apple Silicon Macs ausgeführt werden kann. Die funktionale Portierung, eine Community-Leistung von @Prince_Canuma, erfordert noch Optimierungen für eine verbesserte Leistung.

apple-silicon local inference MLX large language models