← heapsort-ai

local inference

16 items

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 27B is a BEAST

Ein Benutzer berichtet, dass Qwen 3.6 27B, lokal auf einem Laptop ausgeführt, sich hervorragend für Data-Science-Aufgaben wie Tool-Aufrufe und die Fehlerbehebung bei Datentransformationen eignet. Die Leistung war so beeindruckend, dass er erwägt, Cloud-Abonnements zu kündigen, da er es als perfekt für pyspark/python-Arbeiten empfindet.

56
ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

Der Autor hat ein altes Echtzeit-ASR->LLM->TTS-Pipeline-Projekt erneut aufgegriffen und war angenehm überrascht von Qwen3 TTS. Nach viel Experimentieren gelang es ihm, das Qwen3 TTS-Modell zuverlässig für lokales Streaming zum Laufen zu bringen, wobei er dessen Ausdruckskraft und geeignete Architektur lobte.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/19/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Ein Benutzer versucht, Programmierarbeiten mit Qwen3.6-35B auf einem M2 Macbook Pro mit 32 GB RAM durchzuführen, stößt jedoch auf Probleme mit Speicherausschöpfung und Kontextfensterverwaltung. Obwohl das Modell die Kernursache eines Fehlers erkennt, scheitert es an der Implementierung, da wichtige Informationen während der Kontextkomprimierung verloren gehen.

39
NEWSDEV.to AI·4/19/2026

Gemini App Launches on Mac

Google hat die Gemini App für macOS eingeführt, was die erste große Desktop-Erweiterung und eine strategische Verschiebung hin zur lokalen KI-Ausführung darstellt. Dies ermöglicht Nutzern, Gemini-Modelle direkt auf ihren Geräten für schnellere lokale Inferenz, reduzierte Cloud-Abhängigkeit sowie verbesserte Privatsphäre und Leistung auszuführen.

31
CASEDEV.to AI·4/16/2026

The Free Tier Wars 2026: Gemini vs Claude vs Ollama — Which One Actually Saves You Money?

Der Artikel beschreibt ein 90-tägiges Experiment von Ultra Lab, das die Kosten-Leistung von Google Gemini 2.5 Flash (kostenloser Tarif), Claude Opus 4.6 (Pro-Plan) und Ollama mit ultralab:7b (lokale Inferenz) vergleicht. Ziel ist es, basierend auf realen Daten aufzuzeigen, welcher LLM-Stack für verschiedene Produktionsaufgaben das beste Preis-Leistungs-Verhältnis bietet.

27