← heapsort-ai

performance

95 items

RESEARCH↑ trendingReddit r/LocalLLaMA·01/05/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Le contenu confirme les performances du modèle Gemma-4-26B-A4B-NVFP4 sur une GPU NVIDIA 5090, détaillant l'utilisation de 18.8GB de VRAM et une capacité de contexte de 50k. Il présente également les scores de référence pour la version NVFP4 comparés à la pleine précision sur diverses métriques comme GPQA, AIME et MMLU Pro.

nvidia/Gemma-4-26B-A4B-NVFP4
42
NEWS↑ trendingReddit r/LocalLLaMA·19/04/2026

llama.cpp speculative checkpointing was merged

Le "checkpointing spéculatif" a été intégré à llama.cpp, offrant des gains de vitesse potentiels. Certains prompts, notamment pour le codage avec des paramètres optimisés, peuvent bénéficier d'une accélération de 0% à 50%, tandis que d'autres pourraient ne pas voir d'amélioration en raison d'un faible taux d'acceptation du brouillon.

42
NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

Le support MTP de llama.cpp est maintenant en version bêta, avec un support initial pour Qwen3.5 MTP et une fusion potentielle prochaine. Cette amélioration, ainsi que le support tensor-parallel en maturation, devrait combler les écarts de performance entre llama.cpp et vLLM, notamment en termes de vitesse de génération de jetons.

Llama.cpp MTP support now in beta!
42
ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Cette mise à jour détaille l'exécution de Qwen3.6-27B sur une seule RTX 3090, atteignant un contexte de ~218K et des appels d'outils stables à 50-66 TPS. Un problème de mémoire critique avec de longues sorties d'outils a été résolu en corrigeant une dérive d'ancre dans un patch Genesis (PN12) pour vLLM.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Is a high-end private local LLM setup worth it?

L'utilisateur s'interroge sur la pertinence d'une configuration LLM locale haut de gamme, citant les coûts élevés, les difficultés de configuration et les écarts de performance par rapport aux services cloud comme Claude et GPT. Il est prêt à investir dans du matériel puissant, mais veut savoir si cela peut réellement égaler la vitesse et l'intelligence des meilleurs modèles commerciaux.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

L'utilisateur demande conseil pour choisir entre une RTX 5090 et un M5 Max 128GB pour le développement de logiciels agentiques avec Qwen3.6 27B en local. La RTX 5090 offre une vitesse 3 fois supérieure, tandis que le M5 Max offre 4 fois plus de mémoire, posant un compromis entre la génération rapide de code et une plus grande capacité de contexte.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·19/04/2026

QWEN3.6 + ik_llama is fast af

Un utilisateur a rapporté l'exécution du modèle Qwen3.6 + ik_llama à plus de 50 tokens/seconde avec une fenêtre de contexte de 200k sur 16 Go de VRAM et 32 Go de RAM. Cela constitue une référence de performance significative pour les grands modèles linguistiques.

QWEN3.6 + ik_llama is fast af
38