performance

95 items

ARTICLE↑ trendingHacker News (AI)·il y a 1j

Show HN: Web Speed – A shared web-map registry for AI agents (MCP, open source)

L'auteur présente Web Speed, un outil open source qui analyse les pages web HTML en sitemaps facilement lisibles pour les agents IA, les rendant plus rapides et moins chers. Le projet comprend un cache global de sitemaps pour accélérer davantage les agents, actuellement accessible uniquement via la version payante de l'API.

Open Source sitemaps performance web parsing

ARTICLEDEV.to AI·23/04/2026

Stop Using sleep() in Your Agent Loops: Event-Driven AI Agent Scheduling

Cet article critique l'utilisation courante de `sleep()` dans les boucles d'agents IA, soulignant son coût en termes de budget API, de latence élevée et de masquage des échecs. Il préconise une planification basée sur les événements comme alternative supérieure pour optimiser les coûts et les performances à grande échelle.

Optimization performance developer tools scheduling

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

I have (even faster) DeepSeek V4 Pro at home

L'auteur a réussi à exécuter le modèle DeepSeek V4 Pro encore plus rapidement sur son matériel domestique en utilisant ktransformers. Il détaille les ajustements matériels et présente les résultats de benchmark de performance avec une profondeur de contexte croissante.

DeepSeek Benchmarking hardware performance

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

L'auteur a testé le modèle Qwen 3.6 35b MTP localement, constatant une augmentation de vitesse de 1,5x. Il a exploré l'utilisation d'une grande fenêtre de contexte, atteignant 300k tokens avec un potentiel plus élevé.

LLMs Benchmarking Local AI Qwen

NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash introduit un port GGUF du décodage spéculatif DFlash pour Qwen3.6-27B, atteignant près de 2x le débit sur une seule RTX 3090. Cette pile C++/CUDA autonome, disponible en tant que projet open-source sous licence MIT, améliore considérablement les performances des LLM sur du matériel grand public.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

Gemma 4 on Llama.cpp should be stable now

A integração de correções no Llama.cpp resolveu problemas conhecidos do Gemma 4, tornando-o estável para uso. O conteúdo oferece dicas de execução, como uso de `--chat-template-file` e otimização de cache, além de alertar contra o uso do CUDA 13.2.

Technical Tips Gemma 4 llama.cpp performance

RESEARCH↑ trendingReddit r/LocalLLaMA·01/05/2026

nvidia/Gemma-4-26B-A4B-NVFP4

Le contenu confirme les performances du modèle Gemma-4-26B-A4B-NVFP4 sur une GPU NVIDIA 5090, détaillant l'utilisation de 18.8GB de VRAM et une capacité de contexte de 50k. Il présente également les scores de référence pour la version NVFP4 comparés à la pleine précision sur diverses métriques comme GPQA, AIME et MMLU Pro.

AI models GPU Benchmarking NVIDIA

RESEARCH↑ trendingReddit r/LocalLLaMA·16/04/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Le contenu détaille les performances du modèle Qwen 3.6 35B A3B, atteignant 187 tokens par seconde sur un GPU RTX 5090 32GB. Il met en évidence la prise en charge d'une taille de contexte de 120K, utilisant une quantification Q5 K S et une température de 0.1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

NEWS↑ trendingReddit r/LocalLLaMA·19/04/2026

llama.cpp speculative checkpointing was merged

Le "checkpointing spéculatif" a été intégré à llama.cpp, offrant des gains de vitesse potentiels. Certains prompts, notamment pour le codage avec des paramètres optimisés, peuvent bénéficier d'une accélération de 0% à 50%, tandis que d'autres pourraient ne pas voir d'amélioration en raison d'un faible taux d'acceptation du brouillon.

Open Source llama.cpp speculative-checkpointing AI inference

NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

Le support MTP de llama.cpp est maintenant en version bêta, avec un support initial pour Qwen3.5 MTP et une fusion potentielle prochaine. Cette amélioration, ainsi que le support tensor-parallel en maturation, devrait combler les écarts de performance entre llama.cpp et vLLM, notamment en termes de vitesse de génération de jetons.

AI models Qwen3.5 MTP llama.cpp

ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Cette mise à jour détaille l'exécution de Qwen3.6-27B sur une seule RTX 3090, atteignant un contexte de ~218K et des appels d'outils stables à 50-66 TPS. Un problème de mémoire critique avec de longues sorties d'outils a été résolu en corrigeant une dérive d'ancre dans un patch Genesis (PN12) pour vLLM.

Optimization hardware performance vLLM

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Le titre décrit une optimisation impressionnante pour le modèle Qwen3.6–27B, atteignant 85 TPS et 125K de contexte avec des capacités de vision sur une seule RTX 3090. Cela représente une prouesse technique significative pour le déploiement efficace des LLM.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Les modèles d'IA denses surpassent actuellement les MoE dans l'ensemble, mais les MoE rattrapent rapidement leur retard, en particulier dans les benchmarks de codage. Pour les utilisateurs disposant de 24 Go de VRAM et nécessitant de grandes fenêtres de contexte, le MoE devient une option plus attrayante.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Is a high-end private local LLM setup worth it?

L'utilisateur s'interroge sur la pertinence d'une configuration LLM locale haut de gamme, citant les coûts élevés, les difficultés de configuration et les écarts de performance par rapport aux services cloud comme Claude et GPT. Il est prêt à investir dans du matériel puissant, mais veut savoir si cela peut réellement égaler la vitesse et l'intelligence des meilleurs modèles commerciaux.

local LLM private-ai cost hardware

ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

L'utilisateur demande conseil pour choisir entre une RTX 5090 et un M5 Max 128GB pour le développement de logiciels agentiques avec Qwen3.6 27B en local. La RTX 5090 offre une vitesse 3 fois supérieure, tandis que le M5 Max offre 4 fois plus de mémoire, posant un compromis entre la génération rapide de code et une plus grande capacité de contexte.

LLMs GPU hardware performance

RESEARCH↑ trendingReddit r/LocalLLaMA·19/04/2026

QWEN3.6 + ik_llama is fast af

Un utilisateur a rapporté l'exécution du modèle Qwen3.6 + ik_llama à plus de 50 tokens/seconde avec une fenêtre de contexte de 200k sur 16 Go de VRAM et 32 Go de RAM. Cela constitue une référence de performance significative pour les grands modèles linguistiques.

Benchmarking hardware performance LLM

ARTICLEDEV.to AI·23/04/2026

Building a Bit-Accurate Fused QKV + RoPE Kernel for Qwen 2.5 in Triton

Cet article décrit la création d'un noyau Triton bit-précis pour Qwen 2.5, fusionnant la projection QKV, RoPE et l'écriture du cache KV en une seule opération. Il offre un gain de vitesse de 4,5 à 5 fois par rapport à plusieurs opérations PyTorch, tout en maintenant une précision de sortie exacte.

GPU computing Transformer AI optimization Triton

NEWS↑ trendingReddit r/LocalLLaMA·09/04/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives

Le contenu compare les modèles Qwen 3.6 35B et 27B pour les primitives de codage, notant que le 35B est plus rapide (72 TPS) mais moins précis que le 27B (18 TPS), qui produit des résultats plus corrects bien que plus lent. Il inclut une invite de test et demande les expériences des utilisateurs.

Benchmarking Qwen performance coding

Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives

NEWS↑ trendingReddit r/LocalLLaMA·12/04/2026

MiniMax m2.7 (mac only) 63gb: 88% and 89gb: 95%, MMLU 200q

Le contenu annonce le lancement du modèle d'IA MiniMax M2.7, disponible en versions de 63 Go et 89 Go, optimisé pour Mac. Il souligne ses performances prometteuses, suggérant qu'il se rapproche des niveaux de modèles comme Sonnet 4.5 et mentionne le benchmark MMLU.

local inference MiniMax performance HuggingFace