LLM benchmarking

2 items

ARTICLE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen 3.6 35B crushes Gemma 4 26B on my tests

L'auteur a réalisé un benchmark personnel où Qwen 3.6 35B a surpassé Gemma 4 26B lors de tests évaluant les capacités agentiques, de codage, de synthèse image-texte, de suivi d'instructions et de raisonnement. Qwen a corrigé plus de problèmes, a eu moins de régressions et a terminé les tests plus rapidement, démontrant une meilleure performance globale.

LLM benchmarking Gemma Agentic AI Qwen

ARTICLEDEV.to AI·21/04/2026

3 Things I Learned Benchmarking Claude, GPT-4o, and Gemini on Real Dev Work

Cet article détaille une analyse comparative entre Claude 3.5 Sonnet, GPT-4o et Gemini 2.0 Flash sur cinq tâches réelles de développement, mesurant l'utilisation des jetons et les coûts avec PromptFuel. Il souligne qu'il est coûteux de choisir un LLM par intuition et présente des résultats initiaux sur les performances.

AI models LLM benchmarking GPT-4o Cost Optimization