AI Model Optimization

2 items

DOC↑ trendingReddit r/LocalLLaMA·4/15/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.

Hardware Acceleration AI Model Optimization llama.cpp local inference

RESEARCHDEV.to AI·vor 7T

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Dieser Inhalt teilt Hardware-Telemetriedaten aus einem Architekturtest zur Bewertung der Ausführung von Modellen im Grenzmaßstab auf stark eingeschränkter Standardhardware. Er beschreibt das Benchmarking einer 284B-Parameter Mixture-of-Experts (MoE)-Architektur, die 0,00 GB aktiven GPU-VRAM erreichte, indem sie die physische Gewichtsspeicherung von der aktiven lokalen Grafikkartenzuweisung entkoppelte.

Hardware Telemetry DeepSeek-V4-Flash AI Model Optimization VRAM Optimization