← heapsort-ai

local inference

16 items

CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B is a BEAST

Un utilisateur rapporte que Qwen 3.6 27B, exécuté localement sur un ordinateur portable, excelle dans les tâches de science des données telles que les appels d'outils et le débogage de transformation de données. Ses performances sont si impressionnantes qu'il envisage d'annuler ses abonnements au cloud, le trouvant parfait pour le travail pyspark/python.

56
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

L'auteur a revisité un ancien projet de pipeline ASR->LLM->TTS local en temps réel et a été agréablement surpris par Qwen3 TTS. Après expérimentation, il a réussi à faire fonctionner Qwen3 TTS de manière fiable pour le streaming local, louant son expressivité et son architecture adaptée.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
CASE↑ trendingReddit r/LocalLLaMA·18/04/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un utilisateur signale que Qwen 3.6 présente un saut de performance significatif, se montrant capable pour des charges de travail habituellement confiées à Opus et Codex, bien qu'il n'atteigne pas encore leur niveau. L'utilisateur souligne son utilité et sa rapidité lorsqu'il est correctement configuré avec `preserve_thinking` sur un M5 Max avec des paramètres spécifiques.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un utilisateur tente d'effectuer des tâches de codage avec Qwen3.6-35B sur un Macbook Pro M2 de 32 Go, rencontrant des problèmes d'épuisement de la mémoire et de gestion de la fenêtre contextuelle. Bien que le modèle identifie l'essence d'un bug, il ne parvient pas à implémenter la solution car des informations cruciales sont perdues lors de la compaction du contexte.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Gemma4 26b & E4B are crazy good, and replaced Qwen for me!

L'utilisateur décrit sa configuration d'IA précédente avant de passer à Gemma4, détaillant le matériel (GPUs et RAM) et les modèles Qwen spécifiques utilisés pour diverses tâches. Il explique les rôles des différentes versions de Qwen (3.5 4B, 30b, 27b, 80B, 122b) pour le routage sémantique, le chat général, le raisonnement, la génération de code et la récupération de connaissances, en fonction de leurs besoins de quantification et de contexte.

36
NEWSDEV.to AI·19/04/2026

Gemini App Launches on Mac

Google a lancé l'application Gemini pour macOS, marquant sa première expansion majeure sur les ordinateurs de bureau et un virage stratégique vers l'exécution locale de l'IA. Cela permet aux utilisateurs d'exécuter des modèles Gemini directement sur leurs machines pour une inférence locale plus rapide, une dépendance réduite au cloud et une confidentialité et des performances améliorées.

31
CASEDEV.to AI·16/04/2026

The Free Tier Wars 2026: Gemini vs Claude vs Ollama — Which One Actually Saves You Money?

L'article détaille une expérience de 90 jours menée par Ultra Lab comparant le rapport coût-performance de Google Gemini 2.5 Flash (gratuit), Claude Opus 4.6 (plan Pro) et Ollama avec ultralab:7b (inférence locale). Il vise à révéler quelle pile de LLM offre la meilleure valeur pour diverses tâches de production, présentant des données réelles.

27