apple-silicon

9 items

RESEARCH↑ trendingReddit r/LocalLLaMA·4/11/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.

apple-silicon MLX Qwen LLM performance

NEWS↑ trendingReddit r/MachineLearning·5/1/2026

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

Phosphene ist ein kostenloses Open-Source-Desktop-Panel für Apple Silicon Macs, das Video mit synchronisiertem Audio unter Verwendung des LTX 2.3-Modells von Lightricks generiert. Sein Alleinstellungsmerkmal ist die gleichzeitige Generierung von Video und Audio in einem einzigen Diffusionsprozess, was eine perfekte zeitliche Abstimmung gewährleistet.

Open Source AI models apple-silicon video generation

Phosphene local video and audio generation for Apple Silicon open source (LTX 2.3) [P]

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Gemma 4 - MLX doesn't seem better than GGUF

Ein Benutzer vergleicht die Leistung des Gemma 4-26b-a4b Modells in MLX- und GGUF-Versionen auf einem M1 Max mit 32GB RAM. Tests mit einem 3k Token Prompt zeigen, dass GGUF sowohl bei der Prompt-Verarbeitung als auch bei den Tokens pro Sekunde etwas schneller ist.

model performance apple-silicon Gemma MLX

RESEARCHarXiv CS.LG·vor 21T

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Diese Forschung optimiert systematisch die Inferenz von Echtzeit-Diffusionsmodellen auf dem Apple M3 Ultra und untersucht verschiedene Techniken wie CoreML-Konvertierung und Quantisierung. Die Studie erreichte 22.7 FPS für die 512x512 img2img-Transformation durch die Kombination der CoreML-Konvertierung des SDXS-512 mit einer 3-Thread-Kamerapipeline.

Diffusion Models Optimization apple-silicon image generation

ARTICLEDEV.to AI·4/13/2026

I Built a Free Local AI Art Pipeline on My Mac — Here's What Broke

Dieser Inhalt beschreibt den Aufbau einer kostenlosen, vollständigen Pipeline zur KI-Kunstgenerierung und -bewertung, die vollständig lokal auf einem MacBook mit Apple Silicon läuft. Sie nutzt Tools wie ComfyUI/SDXL und Vulca, wodurch die Notwendigkeit von Cloud-APIs oder GPU-Servern entfällt.

apple-silicon AI art Local AI SDXL

ARTICLEDEV.to AI·vor 9T

Best Local AI Models for Apple Silicon in 2026

Der Artikel behandelt die bedeutende Veränderung beim lokalen Ausführen von KI-Modellen auf Apple Silicon Macs, was zuvor dedizierte NVIDIA GPUs erforderte. Dieser Wandel wird durch die vereinheitlichte Speicherarchitektur von Apple Silicon ermöglicht, die den RAM effizient über Komponenten hinweg nutzt.

mac apple-silicon Local AI hardware

RESEARCHarXiv CS.CL·4/21/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Diese Forschung bewertet spekulatives Decoding für polnische LLMs auf Apple Silicon und erweitert das MLX-LM-Framework um Universal Assisted Generation (UAG) für Cross-Tokenizer-Kompatibilität. Experimente zeigen, dass kontextbewusste Token-Übersetzung die Akzeptanzraten für Bielik 11B auf polnischsprachigen Datensätzen signifikant verbessert.

apple-silicon Natural Language Processing Inference Optimization Speculative Decoding

ARTICLEDEV.to AI·4/20/2026

What 19 GB of Memory Compression Taught Me About MLX on M1 Max

Der Autor beschreibt ein Problem mit 19 GB Speicherkomprimierung bei einem großen LLM, das MLX auf einem M1 Max verwendet, welches er zunächst für ein Speicherleck hielt. Die Lösung war ein einziger MLX-API-Aufruf, um den Unified Memory von macOS für inaktive Modelle korrekt zu verwalten.

LLMs apple-silicon memory management Performance optimization

NEWSDEV.to AI·4/26/2026

DeepSeek-V4 Ported to MLX for Apple Silicon Inference

DeepSeek-V4 wurde auf Apples MLX-Framework portiert, sodass das große Sprachmodell auf Apple Silicon Macs ausgeführt werden kann. Die funktionale Portierung, eine Community-Leistung von @Prince_Canuma, erfordert noch Optimierungen für eine verbesserte Leistung.

apple-silicon local inference MLX large language models