← heapsort-ai

model comparison

20 items

RESEARCHarXiv CS.CL·il y a 23h

ABLE: Representing and Mapping LLMs via Attribution-Based Large-model Embedding

ABLE (Attribution-Based Large-model Embedding) propose un cadre pour représenter les grands modèles linguistiques en exploitant l'espace d'interprétabilité. Il améliore la comparaison systématique des modèles en agrégeant les attributions de caractéristiques basées sur le gradient pour saisir les modèles de sensibilité d'entrée spécifiques au modèle.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

Gemma 4 31b 3D geometry

L'auteur exprime une grande satisfaction quant à la qualité de Gemma 4, soulignant ses capacités de codage et d'adaptation en conversation et en raisonnement. Un test de génération de modèles 3D à partir d'une image de voiture de F1 a montré que Gemma surpassait significativement des modèles comme Claude Sonnet, Gemini Pro et ChatGPT, qui présentaient des défauts notables.

Gemma 4 31b 3D geometry
41
ARTICLE↑ trendingReddit r/LocalLLaMA·04/05/2026

The more I use it, the more I'm impressed

Un utilisateur a découvert que Qwen 3.6 27b était capable de déceler un bug critique que GPT 5.5 et Claude Opus 4.7 avaient manqué et initialement nié. Cette observation suggère qu'un traitement plus lent et approfondi par des modèles comme Qwen peut parfois surpasser des modèles de pointe plus rapides dans la résolution de problèmes critiques.

The more I use it, the more I'm impressed
39
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Switching from Opus 4.7 to Qwen-35B-A3B

Un utilisateur envisage de passer d'Opus 4.7 à Qwen-35B-A3B pour son agent de codage quotidien et sollicite les expériences de la communauté. Il se demande si Qwen-35B-A3B suffira pour la plupart des tâches, tout en reconnaissant qu'Opus pourrait avoir un avantage pour le raisonnement complexe, sur un M5 Max 128GB.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

Gemma4 26b & E4B are crazy good, and replaced Qwen for me!

L'utilisateur décrit sa configuration d'IA précédente avant de passer à Gemma4, détaillant le matériel (GPUs et RAM) et les modèles Qwen spécifiques utilisés pour diverses tâches. Il explique les rôles des différentes versions de Qwen (3.5 4B, 30b, 27b, 80B, 122b) pour le routage sémantique, le chat général, le raisonnement, la génération de code et la récupération de connaissances, en fonction de leurs besoins de quantification et de contexte.

36
ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

L'auteur raconte son expérience avec différents modèles d'IA (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) pour traduire un roman chinois, soulignant les problèmes de cohérence des noms et de censure inattendue. Chat GPT 4o était initialement le meilleur pour la précision et la qualité de la traduction, mais certains modèles ont montré une dégradation ou un filtrage au fil du temps.

35
RESEARCHarXiv CS.CL·16/04/2026

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

Cette étude classifie le sentiment dans les avis en anglais et en bengali d'applications bancaires mobiles gouvernementales du Bangladesh, en utilisant une approche d'étiquetage hybride pour 5 652 avis. Elle a révélé que les modèles d'apprentissage automatique traditionnels comme Random Forest et Linear SVM ont significativement surpassé XLM-RoBERTa finement réglé pour cette tâche spécifique.

31
ARTICLEDEV.to AI·17/04/2026

Claude Opus 4.6 vs 4.7: Every Difference Side by Side

Claude Opus 4.7 apporte des améliorations significatives, notamment une résolution de vision triplée, un nouveau slot 'xhigh' pour l'effort, la suppression des paramètres d'échantillonnage et un nouveau tokenizer utilisant plus de tokens. Il présente également des changements de comportement avec des prompts plus littéraux et moins d'appels d'outils, ainsi que trois modifications "breaking" exigeant une migration immédiate du code 4.6.

28
ARTICLEDEV.to AI·il y a 29j

Veo3 vs. Wan2.2: Which AI Video Model Crowns the Creator Economy in 2026?

Ce contenu compare deux modèles vidéo d'IA proéminents, Veo3 et Wan2.2, évaluant leurs approches architecturales pour le réalisme cinématographique par rapport à l'efficacité MoE, et leurs capacités distinctes d'adhérence aux prompts. Il met en évidence la compréhension sémantique profonde de Veo3 pour des esthétiques spécifiques et la polyvalence de Wan2.2 dans divers styles et transformations.

27
ARTICLEDEV.to AI·25/04/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, lancé le 24 avril 2026, introduit un modèle MoE de 1.6T paramètres avec une fenêtre de contexte d'un million de tokens, des modes doubles Réflexion/Non-Réflexion et une licence MIT. Positionné comme une solution rentable pour les charges de travail des agents d'IA, il offre une planification multi-étapes améliorée et des appels de fonctions plus fiables, avec des prix nettement inférieurs à ceux de ses concurrents tels que Claude Sonnet 4.6 et GPT-4o.

27
CASEDEV.to AI·16/04/2026

Claude vs GPT-4o for Autonomous Agent Work: 30 Days of Real Data

Ce contenu compare Claude Sonnet 4.5 et GPT-4o sur 30 jours pour des charges de travail réelles d'agents autonomes, incluant la génération de contenu et de code, ainsi que les intégrations API. L'évaluation a suivi les taux de réussite, révélant des résultats inattendus dans leurs performances pour des tâches impliquant des fichiers interdépendants.

27
ARTICLEDEV.to AI·09/04/2026

Choosing Between GPT-5.4 and Claude Sonnet 4.6 in Real Workflows

O artigo compara o desempenho dos modelos GPT-5.4 e Claude Sonnet 4.6 em fluxos de trabalho reais, destacando que, embora 80% das tarefas sejam semelhantes, o GPT-5.4 se sobressai em 20% das situações que exigem raciocínio multi-passos, uso de ferramentas e saídas estruturadas. A análise enfatiza que critérios como consistência, velocidade, custo e adequação ao fluxo de trabalho são mais importantes do que apenas a correção em ambientes de produção.

27