local inference

16 items

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 27B is a BEAST

Ein Benutzer berichtet, dass Qwen 3.6 27B, lokal auf einem Laptop ausgeführt, sich hervorragend für Data-Science-Aufgaben wie Tool-Aufrufe und die Fehlerbehebung bei Datentransformationen eignet. Die Leistung war so beeindruckend, dass er erwägt, Cloud-Abonnements zu kündigen, da er es als perfekt für pyspark/python-Arbeiten empfindet.

local inference Benchmarking data science LLM

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

Der Autor hat ein altes Echtzeit-ASR->LLM->TTS-Pipeline-Projekt erneut aufgegriffen und war angenehm überrascht von Qwen3 TTS. Nach viel Experimentieren gelang es ihm, das Qwen3 TTS-Modell zuverlässig für lokales Streaming zum Laufen zu bringen, wobei er dessen Ausdruckskraft und geeignete Architektur lobte.

Open Source Qwen3 TTS real-time local inference

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

Der Autor hat Qwen 3.6 Modelle (27B und 35B) erfolgreich lokal für das Codieren implementiert und dabei eine vergleichbare Leistung wie Claude Code erzielt. Diese lokale Einrichtung senkte die Kosten drastisch, von geschätzten 142 $ für API-Aufrufe auf weniger als 4 $ Stromkosten über 8 Stunden.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

DOC↑ trendingReddit r/LocalLLaMA·4/15/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.

Hardware Acceleration AI Model Optimization llama.cpp local inference

CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Ein Benutzer versucht, Programmierarbeiten mit Qwen3.6-35B auf einem M2 Macbook Pro mit 32 GB RAM durchzuführen, stößt jedoch auf Probleme mit Speicherausschöpfung und Kontextfensterverwaltung. Obwohl das Modell die Kernursache eines Fehlers erkennt, scheitert es an der Implementierung, da wichtige Informationen während der Kontextkomprimierung verloren gehen.

LLMs open-source AI local inference code generation

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

Gemma4 26b & E4B are crazy good, and replaced Qwen for me!

Der Nutzer beschreibt sein früheres KI-Setup vor dem Wechsel zu Gemma4, mit GPUs und RAM, wobei verschiedene Qwen-Modelle zum Einsatz kamen. Diese wurden je nach Quantisierung und Kontextbedarf für semantisches Routing, allgemeine Chats, Reasoning, Codegenerierung und Wissensabruf genutzt.

local inference Gemma model comparison Qwen

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

MiniMax m2.7 (mac only) 63gb: 88% and 89gb: 95%, MMLU 200q

Das für Mac optimierte KI-Modell MiniMax M2.7 wurde in 63GB- und 89GB-Versionen vorgestellt. Seine vielversprechende Leistung nähert sich der von Modellen wie Sonnet 4.5 an, wobei der MMLU-Benchmark als Referenz genannt wird.

local inference MiniMax performance HuggingFace

NEWSDEV.to AI·4/19/2026

Gemini App Launches on Mac

Google hat die Gemini App für macOS eingeführt, was die erste große Desktop-Erweiterung und eine strategische Verschiebung hin zur lokalen KI-Ausführung darstellt. Dies ermöglicht Nutzern, Gemini-Modelle direkt auf ihren Geräten für schnellere lokale Inferenz, reduzierte Cloud-Abhängigkeit sowie verbesserte Privatsphäre und Leistung auszuführen.

local inference Gemini Google AI application

DOCDEV.to AI·4/17/2026

How to Run LLMs Locally with Ollama — A Developer's Guide

Dieser Leitfaden beschreibt, wie man Large Language Models (LLMs) lokal mit Ollama ausführt, einem kostenlosen und privaten Tool mit einer OpenAI-kompatiblen API. Er enthält Installationsanleitungen für Linux, macOS und Windows sowie Befehle zum Herunterladen spezifischer code-fokussierter und allgemeiner Modelle.

LLMs Ollama local inference developer tools

ARTICLEDEV.to AI·5/8/2026

KIWI-CHAN GOES DARK: QWEN 35B TAKES THE HELM AND WE DON'T NEED THE CLOUD ANYMORE

Kiwi-chan wurde erfolgreich auf ein vollständig lokales KI-Inferenzsystem umgestellt, wodurch Cloud-Abhängigkeiten und API-Kosten entfallen. Seine Reasoning Engine nutzt nun Qwen 35B mit einem benutzerdefinierten quantisierten Stack und befindet sich derzeit in einer Phase intensiven Lernens und Experimentierens.

on-premise AI local inference AI automation machine learning

CASEDEV.to AI·4/16/2026

The Free Tier Wars 2026: Gemini vs Claude vs Ollama — Which One Actually Saves You Money?

Der Artikel beschreibt ein 90-tägiges Experiment von Ultra Lab, das die Kosten-Leistung von Google Gemini 2.5 Flash (kostenloser Tarif), Claude Opus 4.6 (Pro-Plan) und Ollama mit ultralab:7b (lokale Inferenz) vergleicht. Ziel ist es, basierend auf realen Daten aufzuzeigen, welcher LLM-Stack für verschiedene Produktionsaufgaben das beste Preis-Leistungs-Verhältnis bietet.

local inference Performance Comparison Cost analysis LLM

DOCDEV.to AI·5/8/2026

Putting the GPU to Work: Running Local LLMs on a Home Lab

Der Inhalt beschreibt die Installation von Ollama und den Betrieb lokaler LLMs auf einer Workstation mittels GPUs, wobei die Bedeutung des VRAMs hervorgehoben wird. Es wird die Integration lokaler Modelle mit Coder Agents für verschiedene Kodierungsaufgaben detailliert.

LLMs Ollama learning GPU

DOCDEV.to AI·4/21/2026

How to Install Ollama on Linux and Windows: Complete Setup Guide

Dieser Leitfaden beschreibt, wie Ollama auf Linux- und Windows-Systemen installiert und konfiguriert wird, ein Tool, das das lokale Ausführen und Verwalten großer Sprachmodelle (LLMs) vereinfacht. Er behandelt die Systemanforderungen, den schrittweisen Installationsprozess und wie Sie Ihr erstes Modell, wie Llama3, ausführen.

installation LLMs tutorials Ollama

ARTICLEDEV.to AI·4/14/2026

Best Open-Source Models for OpenClaw — Run Locally, No API Costs

Dieser Artikel empfiehlt die besten Open-Source-KI-Modelle für die lokale Ausführung auf OpenClaw im April 2026, darunter Qwen3.5:27b als besten Allrounder, DeepSeek-R1-Distill-32B für Codierung und Llama 4 Scout für multimodale Aufgaben. Er detailliert VRAM-Anforderungen und Benchmark-Leistung für jedes Modell.

open source models LLMs GPU local inference

NEWSDEV.to AI·4/26/2026

DeepSeek-V4 Ported to MLX for Apple Silicon Inference

DeepSeek-V4 wurde auf Apples MLX-Framework portiert, sodass das große Sprachmodell auf Apple Silicon Macs ausgeführt werden kann. Die funktionale Portierung, eine Community-Leistung von @Prince_Canuma, erfordert noch Optimierungen für eine verbesserte Leistung.

apple-silicon local inference MLX large language models