AI performance

27 items

ARTICLE↑ trendingHacker News (AI)·il y a 5j

Google employees internally share memes about how its AI sucks

Des employés de Google partagent en interne des mèmes qui se moquent de la mauvaise qualité de l'IA de l'entreprise. Cela reflète un sentiment de frustration et de scepticisme concernant les produits d'IA développés en interne.

Internal culture Google AI Employee sentiment memes

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

Le contenu décrit une expérience démontrant des gains de vitesse significatifs (jusqu'à 68.35 tokens/s) en utilisant le décodage spéculatif avec le modèle Qwen-3.6-27B via llamacpp. L'auteur met en évidence la capacité de l'IA à générer et déboguer du code efficacement.

Benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Cet article détaille une nouvelle stratégie de cache d'experts dynamique dans llama.cpp pour accélérer la génération de jetons sur de grands modèles MoE comme Qwen3.5-122B-A10B. L'approche charge les experts fréquemment utilisés dans la VRAM, ce qui se traduit par une génération de jetons jusqu'à 26,8% plus rapide par rapport au déchargement partiel basé sur les couches.

Token Generation llama.cpp VRAM Optimization MoE

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Des tests de décodage spéculatif utilisant Gemma 4 E2B comme brouillon pour Gemma 4 31B ont révélé une amélioration notable des performances. La vitesse moyenne a augmenté de 29%, atteignant 50% pour la génération de code, avec des configurations matérielles et logicielles spécifiques.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/LocalLLaMA·il y a 19j

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

L'auteur a atteint 110 tok/s avec 12GB de VRAM en utilisant ik_llama.cpp sur le modèle Qwen3.6 35B A3B, constatant une augmentation significative de la vitesse. Cette performance a dépassé celle de llama.cpp régulier après la fusion de son PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking

CASE↑ trendingReddit r/LocalLLaMA·18/04/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un utilisateur signale que Qwen 3.6 présente un saut de performance significatif, se montrant capable pour des charges de travail habituellement confiées à Opus et Codex, bien qu'il n'atteigne pas encore leur niveau. L'utilisateur souligne son utilité et sa rapidité lorsqu'il est correctement configuré avec `preserve_thinking` sur un M5 Max avec des paramètres spécifiques.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

NEWS↑ trendingReddit r/LocalLLaMA·15/04/2026

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

Le nouveau support DFlash dans oMLX 0.3.5 RC1 a doublé la vitesse de génération du modèle Qwen3.5 27B (BF16) sur un Mac M5 Max, passant de 9 à 22 T/S. Cette avancée est cruciale pour le déploiement local de ce modèle de haute qualité avec des poids complets ou des quantifications plus élevées.

oMLX DFlash Qwen3.5 AI performance

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un utilisateur tente d'effectuer des tâches de codage avec Qwen3.6-35B sur un Macbook Pro M2 de 32 Go, rencontrant des problèmes d'épuisement de la mémoire et de gestion de la fenêtre contextuelle. Bien que le modèle identifie l'essence d'un bug, il ne parvient pas à implémenter la solution car des informations cruciales sont perdues lors de la compaction du contexte.

LLMs open-source AI local inference code generation

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

L'auteur raconte son expérience avec différents modèles d'IA (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) pour traduire un roman chinois, soulignant les problèmes de cohérence des noms et de censure inattendue. Chat GPT 4o était initialement le meilleur pour la précision et la qualité de la traduction, mais certains modèles ont montré une dégradation ou un filtrage au fil du temps.

Translation censorship model comparison AI performance

ARTICLEDEV.to AI·il y a 3j

<think>

Ce contenu détaille les exigences pour un article technique analysant les performances et la tarification des modèles d'IA, en se concentrant sur des métriques telles que TTFT et tokens/sec. Il spécifie l'inclusion de données précises sur les prix et les modèles, les régions de test et des exemples de code pour une API globale, s'adressant à un public d'ingénieurs backend.

AI pricing API Benchmarks AI performance

ARTICLEDEV.to AI·il y a 5j

Context Window Management: Tactics That Survive Real Sessions

Les grands modèles linguistiques ont souvent une fenêtre de contexte pratique nettement plus petite que leur limite nominale annoncée en raison des frais généraux et de la dégradation de l'attention. Cette divergence affecte la conception des prompts et entraîne des baisses de qualité et un tronquage bien avant que la limite stricte de jetons ne soit atteinte.

prompt engineering Technical limitations AI performance large language models

RESEARCHDEV.to AI·10/05/2026

Diffusion models approach AR quality and improve inference speed

Les modèles de langage à diffusion réalisent désormais des gains de débit significatifs et réduisent l'écart avec les décodeurs autorégressifs en termes de vitesse d'inférence. Les nouveaux modèles de langage à diffusion introspectifs (I-DLM) corrigent les problèmes antérieurs de cohérence introspective et de boucles d'échantillonnage inefficaces, améliorant ainsi la qualité et la latence.

inference speed Diffusion Models language models machine learning

RESEARCHarXiv CS.AI·04/05/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Cette recherche remet en question l'idée que le raisonnement assisté par des outils améliore toujours les performances des LLM, révélant une "taxe d'utilisation d'outils" due au protocole d'appel qui peut dégrader la performance. Un cadre d'intervention factorisé est proposé pour analyser cet écart, et G-STEP est introduit pour atténuer les erreurs induites par le protocole.

LLM Agents Reasoning AI performance tool use

ARTICLEDEV.to AI·il y a 19j

Gemini 3.5 Flash & Google Antigravity 2.0: A Real-World Performance Analysis

Le Gemini 3.5 Flash de Google remet en question l'hypothèse selon laquelle les modèles d'IA plus intelligents doivent être plus lents, alimentant Antigravity 2.0 pour les agents d'IA. Il surpasse significativement les modèles concurrents lors de benchmarks de performance réels, démontrant une vitesse supérieure.

AI models Antigravity 2.0 Google I/O Gemini 3.5 Flash

ARTICLEDEV.to AI·il y a 13j

Enterprise AI Audit Checklist: How Real-Time Quality Scoring Improves AI Performance

Alors que l'adoption de l'IA en entreprise se développe, le suivi continu des performances des systèmes devient crucial. Une "Liste de contrôle d'audit de l'IA d'entreprise" et la notation de la qualité en temps réel sont essentielles pour garantir la précision et prévenir la dégradation des modèles après le déploiement.

AI Monitoring AI audit Quality Scoring AI performance

ARTICLETwo Minute Papers (YouTube)·il y a 6j

Claude Opus 4.8: Lying Machine No More?

Cet article examine Claude Opus 4.8, se demandant si ses capacités ont été améliorées pour éviter de fournir des informations trompeuses. Il analyse les performances du modèle en termes de fiabilité et de précision.

AI models LLMs AI reliability AI performance

ARTICLEDEV.to AI·il y a 13j

AI Agents Fail 70%. The Replacement Story Is A Lie.

Des études indépendantes récentes démystifient l'idée que les agents d'IA remplaceront bientôt des emplois, révélant que même les meilleurs agents n'accomplissent qu'environ 30% des tâches de bureau de manière autonome. Des recherches de Carnegie Mellon, Huawei et Salesforce indiquent des taux d'échec élevés, souvent liés à la fabrication de données ou à l'incapacité de gérer des tâches complexes et à plusieurs étapes de manière sûre et efficace.

future-of-work task automation Benchmarking AI performance

RESEARCHDEV.to AI·08/05/2026

Micro LM delivers large‑model quality on device

Une nouvelle étude présente les Micro Language Models (μLMs), des modèles ultra-compacts (8M–30M paramètres) qui offrent la qualité des grands modèles sur les appareils. Cette approche résout le dilemme entre des premiers mots réactifs et des réponses complètes pour les assistants de périphérie, en amorçant les réponses localement et en réduisant la latence des modèles cloud.

language models micro LMs Edge AI on-device AI

RESEARCHarXiv CS.AI·25/04/2026

Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

Deep FinResearch Bench présente un cadre d'évaluation pour les agents de recherche profonde en investissement financier. Il révèle que les rapports générés par l'IA sont encore inférieurs à ceux des professionnels, soulignant le besoin d'une IA spécialisée.

Financial AI Benchmarking AI performance AI evaluation

ARTICLEDEV.to AI·14/04/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

L'article présente la famille de grands modèles linguistiques MiniMax M2, utilisant une architecture Mixture of Experts pour des performances élevées à faible coût d'inférence. Le modèle M2.7 atteint 90 % de la qualité des modèles de pointe pour 7 % du coût, avec des résultats de référence comparables à Claude Sonnet 4.

OpenClaw AI performance Mixture of Experts MiniMax M2