← heapsort-ai

model performance

22 items

RESEARCH↑ trendingReddit r/MachineLearning·17/04/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Le contenu détaille un problème persistant de faible précision (~50 %) lors de l'utilisation de méthodes d'apprentissage auto-supervisé comme BYOL, MAE et VICReg pour la détection du stress des cultures hyperspectrales. Malgré diverses techniques, les performances restent à peine meilleures que le hasard pour trois classes, soulevant des doutes sur la séparabilité des données ou l'adéquation des méthodes SSL.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

Qwen 3.6 27B a réalisé des gains importants, égalant Sonnet 4.6 sur l'Indice Agentique d'Artificial Analysis et surpassant plusieurs autres modèles proéminents. L'entraînement du modèle semble axé sur l'utilisation agentique, montrant des performances surprenantes pour sa taille malgré des métriques douteuses pour l'Index de Codage.

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6
41
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Gemma 4 - MLX doesn't seem better than GGUF

Un utilisateur compare les performances du modèle Gemma 4-26b-a4b en versions MLX et GGUF sur un M1 Max avec 32GB de RAM. Les tests avec un prompt de 3k tokens indiquent que GGUF est légèrement plus rapide à la fois pour le traitement du prompt et les tokens par seconde.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Did Google hide the best version of Gemma 4 e4b in Android? The extracted model beats Unsloth and everything else I've tried.

L'utilisateur a remarqué qu'une version du modèle Gemma 4 e4b extraite de la Google AI Edge Gallery sur Android est nettement plus performante et intelligente que les versions d'Unsloth ou litertlm, bien qu'étant légèrement plus petite. Il se demande si Google ne cacherait pas une version optimisée et supérieure du modèle sur Android.

38
ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B solved coding problems Qwen3.5-27B couldn’t

L'auteur, initialement sceptique, a testé Qwen3.6-35B-A3B et a découvert qu'il pouvait résoudre des problèmes de codage que Qwen3.5-27B ne pouvait pas gérer. Cela s'est produit lors du développement d'une application de budgétisation personnalisée, où la version précédente introduisait de la dette technique.

37
RESEARCHarXiv CS.LG·il y a 20j

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Cet article propose un cadre évolutif et adaptatif pour améliorer la prédiction spatio-temporelle, en harmonisant les représentations des caractéristiques spatiales et temporelles. Il s'attaque aux goulets d'étranglement des méthodes existantes à l'aide de mesures d'entropie spatiale et temporelle pour les déséquilibres de complexité et l'incertitude de prédiction.

29
RESEARCHarXiv CS.CL·24/04/2026

Serialisation Strategy Matters: How FHIR Data Format Affects LLM Medication Reconciliation

Cette étude compare systématiquement quatre stratégies de sérialisation des données FHIR pour la réconciliation médicamenteuse assistée par LLM, montrant un impact significatif sur les performances des modèles plus petits. La "Narrative Clinique" a surpassé le "JSON Brut" pour les modèles jusqu'à 8B paramètres, mais cet avantage s'est inversé pour le modèle 70B.

29
RESEARCHarXiv CS.CL·il y a 19j

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Cette recherche examine comment différents niveaux de quantification à faible bit affectent les performances de LLaMA-3.1 en analyse qualitative, notant que les modèles à faible bit produisent souvent des hallucinations. Elle propose une méthode de vérification de prompt multipasse sensible à la quantification pour améliorer la précision en réduisant systématiquement les hallucinations et en filtrant le contenu non fiable.

28
ARTICLEDEV.to AI·22/04/2026

Opus 4.7 Isn't Slower. Your Prompts Are.

Depuis sa sortie, les utilisateurs se plaignent que Claude Opus 4.7 est plus lent, mais l'article clarifie que cela est dû à des stratégies de prompt obsolètes. Sa nouvelle fonctionnalité de « pensée adaptative » exige que les utilisateurs reconstruisent leurs compétences en matière de prompt pour éviter les problèmes de performance.

28
RESEARCHDEV.to AI·il y a 20j

How Far Can a Small Coding Model Go With a Better Harness?

L'article examine les performances d'un petit modèle de codage (GPT-5.1-Codex-Mini) sur Terminal-Bench 2.0, atteignant un score de 61,6 % en optimisant son "harnais" plutôt qu'en utilisant un modèle plus grand. Cela met en évidence le rôle crucial de l'enveloppe du modèle dans les performances, surtout avec des modèles plus petits où les erreurs du harnais sont plus impactantes.

27
ARTICLEDEV.to AI·il y a 15j

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Cet article compare la quantification des LLM en 16, 8 et 4 bits, révélant que le 4 bits, bien que plus rapide, compromet significativement la qualité sur les tâches de raisonnement et de mathématiques. Le véritable compromis se situe entre la tâche et la précision requise, le 8 bits étant optimal pour les tâches exigeant de la précision, offrant une perte de qualité minimale avec seulement une légère réduction de vitesse. Le choix de la quantification doit être basé sur la tâche et les considérations matérielles, et non uniquement sur le matériel.

27
ARTICLEDEV.to AI·il y a 22j

Saturday Night Fights

Cet article révèle un écart important entre les scores de référence des modèles d'IA et leurs performances pratiques lors des tests de préparation des agents, où de nombreux modèles bien notés échouent aux défis du monde réel. L'auteur propose une "carte de combat" pour évaluer les modèles d'IA en fonction de leurs véritables capacités opérationnelles plutôt que de métriques superficielles.

27
NEWSDEV.to AI·26/04/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

Le DeepSeek V4 Pro a été lancé le 24 avril 2026, avec 1,6T de paramètres et un contexte de 1M de tokens, offrant des modes « Penser » et « Non-Penser ». Ce nouveau modèle est présenté comme un choix optimisé pour les agents d'IA grâce à sa rentabilité et à des améliorations notables pour les tâches à long contexte et l'appel de fonctions par rapport aux versions précédentes et aux concurrents.

27
RESEARCHDEV.to AI·09/05/2026

Hierarchical skill KB improves performance of weaker models

Un nouveau pipeline automatisé, SkillX, améliore les performances des agents autonomes de modèles de langage en extrayant des comportements hiérarchiques réutilisables à partir de trajectoires collectives. Cette base de connaissances à trois niveaux (compétences stratégiques, fonctionnelles et atomiques) permet aux modèles plus faibles de récupérer efficacement les expériences, surmontant les limitations des méthodes traditionnelles.

27
ARTICLEDEV.to AI·09/05/2026

DeepSeek V4 Pro vs Flash: 3 Tasks, 100M Tokens, Real Cost-Quality Tradeoff

Cette analyse compare les modèles DeepSeek V4 Pro et V4 Flash, soulignant une différence de prix de 12x mais un écart de qualité minime pour les tâches de codage simples, rendant Flash une option viable. Pour le raisonnement complexe multi-fichiers, V4 Pro est essentiel, et la mise en œuvre d'un routage basé sur les tâches peut réduire les dépenses de DeepSeek de 80% sans perte de qualité significative.

27
ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.

27