model performance

22 items

RESEARCH↑ trendingReddit r/MachineLearning·17/04/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

Le contenu détaille un problème persistant de faible précision (~50 %) lors de l'utilisation de méthodes d'apprentissage auto-supervisé comme BYOL, MAE et VICReg pour la détection du stress des cultures hyperspectrales. Malgré diverses techniques, les performances restent à peine meilleures que le hasard pour trois classes, soulevant des doutes sur la séparabilité des données ou l'adéquation des méthodes SSL.

model performance Hyperspectral imaging deep learning self-supervised learning

RESEARCH↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

Qwen 3.6 27B a réalisé des gains importants, égalant Sonnet 4.6 sur l'Indice Agentique d'Artificial Analysis et surpassant plusieurs autres modèles proéminents. L'entraînement du modèle semble axé sur l'utilisation agentique, montrant des performances surprenantes pour sa taille malgré des métriques douteuses pour l'Index de Codage.

model performance AI models LLMs Benchmarking

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Gemma 4 - MLX doesn't seem better than GGUF

Un utilisateur compare les performances du modèle Gemma 4-26b-a4b en versions MLX et GGUF sur un M1 Max avec 32GB de RAM. Les tests avec un prompt de 3k tokens indiquent que GGUF est légèrement plus rapide à la fois pour le traitement du prompt et les tokens par seconde.

model performance apple-silicon Gemma MLX

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Did Google hide the best version of Gemma 4 e4b in Android? The extracted model beats Unsloth and everything else I've tried.

L'utilisateur a remarqué qu'une version du modèle Gemma 4 e4b extraite de la Google AI Edge Gallery sur Android est nettement plus performante et intelligente que les versions d'Unsloth ou litertlm, bien qu'étant légèrement plus petite. Il se demande si Google ne cacherait pas une version optimisée et supérieure du modèle sur Android.

model performance Google AI Android AI AI edge

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B solved coding problems Qwen3.5-27B couldn’t

L'auteur, initialement sceptique, a testé Qwen3.6-35B-A3B et a découvert qu'il pouvait résoudre des problèmes de codage que Qwen3.5-27B ne pouvait pas gérer. Cela s'est produit lors du développement d'une application de budgétisation personnalisée, où la version précédente introduisait de la dette technique.

model performance App Development large language models coding assistance

ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

Le titre suggère que le réglage fin de modèles d'IA locaux utilisant la marque

model performance AI models LLMs local models

These "Claude-4.6-Opus" Fine Tunes of Local Models Are Usually A Downgrade

RESEARCHarXiv CS.LG·il y a 20j

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Cet article propose un cadre évolutif et adaptatif pour améliorer la prédiction spatio-temporelle, en harmonisant les représentations des caractéristiques spatiales et temporelles. Il s'attaque aux goulets d'étranglement des méthodes existantes à l'aide de mesures d'entropie spatiale et temporelle pour les déséquilibres de complexité et l'incertitude de prédiction.

model performance deep learning spatiotemporal prediction machine learning

RESEARCHarXiv CS.CL·24/04/2026

Serialisation Strategy Matters: How FHIR Data Format Affects LLM Medication Reconciliation

Cette étude compare systématiquement quatre stratégies de sérialisation des données FHIR pour la réconciliation médicamenteuse assistée par LLM, montrant un impact significatif sur les performances des modèles plus petits. La "Narrative Clinique" a surpassé le "JSON Brut" pour les modèles jusqu'à 8B paramètres, mais cet avantage s'est inversé pour le modèle 70B.

data-serialisation model performance Healthcare FHIR

RESEARCHarXiv CS.CL·il y a 19j

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Cette recherche examine comment différents niveaux de quantification à faible bit affectent les performances de LLaMA-3.1 en analyse qualitative, notant que les modèles à faible bit produisent souvent des hallucinations. Elle propose une méthode de vérification de prompt multipasse sensible à la quantification pour améliorer la précision en réduisant systématiquement les hallucinations et en filtrant le contenu non fiable.

model performance Qualitative Analysis LLMs hallucinations

ARTICLEDEV.to AI·22/04/2026

Opus 4.7 Isn't Slower. Your Prompts Are.

Depuis sa sortie, les utilisateurs se plaignent que Claude Opus 4.7 est plus lent, mais l'article clarifie que cela est dû à des stratégies de prompt obsolètes. Sa nouvelle fonctionnalité de « pensée adaptative » exige que les utilisateurs reconstruisent leurs compétences en matière de prompt pour éviter les problèmes de performance.

model performance prompt engineering Claude Opus LLM

RESEARCHDEV.to AI·il y a 20j

How Far Can a Small Coding Model Go With a Better Harness?

L'article examine les performances d'un petit modèle de codage (GPT-5.1-Codex-Mini) sur Terminal-Bench 2.0, atteignant un score de 61,6 % en optimisant son "harnais" plutôt qu'en utilisant un modèle plus grand. Cela met en évidence le rôle crucial de l'enveloppe du modèle dans les performances, surtout avec des modèles plus petits où les erreurs du harnais sont plus impactantes.

model performance LLM optimization Benchmarking code generation

ARTICLEDEV.to AI·il y a 15j

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Cet article compare la quantification des LLM en 16, 8 et 4 bits, révélant que le 4 bits, bien que plus rapide, compromet significativement la qualité sur les tâches de raisonnement et de mathématiques. Le véritable compromis se situe entre la tâche et la précision requise, le 8 bits étant optimal pour les tâches exigeant de la précision, offrant une perte de qualité minimale avec seulement une légère réduction de vitesse. Le choix de la quantification doit être basé sur la tâche et les considérations matérielles, et non uniquement sur le matériel.

inference speed model performance quantization hardware

ARTICLEDEV.to AI·28/04/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, lancé le 24 avril 2026, est un modèle 1.6T (MoE) avec un contexte de 1M de tokens et des modes Think/Non-Think optimisés pour les agents IA. Il améliore la planification multi-étapes et la fiabilité des appels de fonctions à des tarifs compétitifs, le rendant idéal pour les charges de travail d'agents.

DeepSeek model performance large language models AI agents

ARTICLEDEV.to AI·il y a 29j

The $0 Agent: My 2GB Local Model Beat Claude

L'auteur a mené une expérience comparant un modèle d'IA local de 1,8 Go à Claude Sonnet 4 sur 10 tâches de codage réelles, telles que l'analyse JSON et la correction de bugs. Le modèle local a obtenu un taux de réussite de 93,3%, surpassant Claude qui a scoré 85%.

model performance Local AI coding tasks AI agents

ARTICLEDEV.to AI·il y a 22j

Saturday Night Fights

Cet article révèle un écart important entre les scores de référence des modèles d'IA et leurs performances pratiques lors des tests de préparation des agents, où de nombreux modèles bien notés échouent aux défis du monde réel. L'auteur propose une "carte de combat" pour évaluer les modèles d'IA en fonction de leurs véritables capacités opérationnelles plutôt que de métriques superficielles.

model performance Benchmarking Agentic AI AI evaluation

NEWSDEV.to AI·26/04/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

Le DeepSeek V4 Pro a été lancé le 24 avril 2026, avec 1,6T de paramètres et un contexte de 1M de tokens, offrant des modes « Penser » et « Non-Penser ». Ce nouveau modèle est présenté comme un choix optimisé pour les agents d'IA grâce à sa rentabilité et à des améliorations notables pour les tâches à long contexte et l'appel de fonctions par rapport aux versions précédentes et aux concurrents.

DeepSeek model performance LLMs AI agents

RESEARCHDEV.to AI·09/05/2026

Hierarchical skill KB improves performance of weaker models

Un nouveau pipeline automatisé, SkillX, améliore les performances des agents autonomes de modèles de langage en extrayant des comportements hiérarchiques réutilisables à partir de trajectoires collectives. Cette base de connaissances à trois niveaux (compétences stratégiques, fonctionnelles et atomiques) permet aux modèles plus faibles de récupérer efficacement les expériences, surmontant les limitations des méthodes traditionnelles.

language models model performance AI models machine learning

ARTICLEDEV.to AI·09/05/2026

DeepSeek V4 Pro vs Flash: 3 Tasks, 100M Tokens, Real Cost-Quality Tradeoff

Cette analyse compare les modèles DeepSeek V4 Pro et V4 Flash, soulignant une différence de prix de 12x mais un écart de qualité minime pour les tâches de codage simples, rendant Flash une option viable. Pour le raisonnement complexe multi-fichiers, V4 Pro est essentiel, et la mise en œuvre d'un routage basé sur les tâches peut réduire les dépenses de DeepSeek de 80% sans perte de qualité significative.

DeepSeek model performance AI models AI strategy

ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.

model performance DPO AI training Debugging

ARTICLEDEV.to AI·15/04/2026

A Modern Take on the Bias-Variance Tradeoff in Neural Networks

Cet article offre une perspective moderne sur le compromis classique biais-variance, réévaluant son application et sa pertinence dans le contexte des réseaux neuronaux contemporains. Il explore comment ce concept fondamental se manifeste et impacte les performances des modèles d'apprentissage profond.

neural networks model performance deep learning machine learning