← heapsort-ai

AI performance

27 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

43
CASE↑ trendingReddit r/LocalLLaMA·18/04/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un utilisateur signale que Qwen 3.6 présente un saut de performance significatif, se montrant capable pour des charges de travail habituellement confiées à Opus et Codex, bien qu'il n'atteigne pas encore leur niveau. L'utilisateur souligne son utilité et sa rapidité lorsqu'il est correctement configuré avec `preserve_thinking` sur un M5 Max avec des paramètres spécifiques.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un utilisateur tente d'effectuer des tâches de codage avec Qwen3.6-35B sur un Macbook Pro M2 de 32 Go, rencontrant des problèmes d'épuisement de la mémoire et de gestion de la fenêtre contextuelle. Bien que le modèle identifie l'essence d'un bug, il ne parvient pas à implémenter la solution car des informations cruciales sont perdues lors de la compaction du contexte.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

L'auteur raconte son expérience avec différents modèles d'IA (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) pour traduire un roman chinois, soulignant les problèmes de cohérence des noms et de censure inattendue. Chat GPT 4o était initialement le meilleur pour la précision et la qualité de la traduction, mais certains modèles ont montré une dégradation ou un filtrage au fil du temps.

35
ARTICLEDEV.to AI·il y a 3j

<think>

Ce contenu détaille les exigences pour un article technique analysant les performances et la tarification des modèles d'IA, en se concentrant sur des métriques telles que TTFT et tokens/sec. Il spécifie l'inclusion de données précises sur les prix et les modèles, les régions de test et des exemples de code pour une API globale, s'adressant à un public d'ingénieurs backend.

30
ARTICLEDEV.to AI·il y a 5j

Context Window Management: Tactics That Survive Real Sessions

Les grands modèles linguistiques ont souvent une fenêtre de contexte pratique nettement plus petite que leur limite nominale annoncée en raison des frais généraux et de la dégradation de l'attention. Cette divergence affecte la conception des prompts et entraîne des baisses de qualité et un tronquage bien avant que la limite stricte de jetons ne soit atteinte.

29
RESEARCHDEV.to AI·10/05/2026

Diffusion models approach AR quality and improve inference speed

Les modèles de langage à diffusion réalisent désormais des gains de débit significatifs et réduisent l'écart avec les décodeurs autorégressifs en termes de vitesse d'inférence. Les nouveaux modèles de langage à diffusion introspectifs (I-DLM) corrigent les problèmes antérieurs de cohérence introspective et de boucles d'échantillonnage inefficaces, améliorant ainsi la qualité et la latence.

28
RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

28
ARTICLEDEV.to AI·il y a 13j

AI Agents Fail 70%. The Replacement Story Is A Lie.

Des études indépendantes récentes démystifient l'idée que les agents d'IA remplaceront bientôt des emplois, révélant que même les meilleurs agents n'accomplissent qu'environ 30% des tâches de bureau de manière autonome. Des recherches de Carnegie Mellon, Huawei et Salesforce indiquent des taux d'échec élevés, souvent liés à la fabrication de données ou à l'incapacité de gérer des tâches complexes et à plusieurs étapes de manière sûre et efficace.

27
RESEARCHDEV.to AI·08/05/2026

Micro LM delivers large‑model quality on device

Une nouvelle étude présente les Micro Language Models (μLMs), des modèles ultra-compacts (8M–30M paramètres) qui offrent la qualité des grands modèles sur les appareils. Cette approche résout le dilemme entre des premiers mots réactifs et des réponses complètes pour les assistants de périphérie, en amorçant les réponses localement et en réduisant la latence des modèles cloud.

27