Model Evaluation

28 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen3.6 can code

Un utilisateur, frustré par les modèles OpenAI, a essayé Qwen3.6-27b pour générer du code Svelte 5 et a obtenu un résultat parfait, bien que cela ait pris plus de temps. Il anticipe des développements intéressants au cours des 12 prochains mois, malgré le caractère informel de l'évaluation.

AI models Model Evaluation code generation

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Ce contenu présente un projet de recherche comparative analysant les "modèles oblitérés" (HauhauCS, Heretic, Huihui) par rapport à Qwen 3/3.5, en utilisant une suite forensique complète comprenant des benchmarks et des évaluations de sécurité. L'objectif est de vérifier les affirmations selon lesquelles ces modèles sont "sans perte et non censurés" et reproductibles par le lecteur.

AI models LLMs Model Evaluation Benchmarking

RESEARCH↑ trendingReddit r/LocalLLaMA·26/04/2026

Confirmed: SWE Bench is now a benchmaxxed benchmark

Le titre annonce que SWE Bench, un benchmark pour l'évaluation de l'IA en ingénierie logicielle, a été confirmé comme un benchmark « benchmaxxed ». Cela suggère qu'il a atteint un statut de grande pertinence ou de saturation dans le domaine.

software-engineering-ai Model Evaluation Benchmarks

Confirmed: SWE Bench is now a benchmaxxed benchmark

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Un utilisateur rapporte exécuter Qwen3.6-35b-a3b localement sur un MacBook Pro M5 Max avec une quantification 8 bits et un contexte de 64k, jugeant ses performances comparables à celles de Claude. Il est très impressionné par sa rapidité, sa capacité à gérer des tâches de recherche complexes et les avantages en matière de confidentialité de l'exécution locale.

LLMs privacy Model Evaluation Local AI

RESEARCHDEV.to AI·23/04/2026

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

La Course 3 du Programme de Vérification Cybernétique d'Anthropic a testé la sécurité de son plus petit modèle Claude (Haiku 4.5) contre 13 scénarios d'attaque par agent. Le résultat fut 13/13 propre, sans exécution de contenu exploitable ni fuite de secrets, confirmant l'efficacité de la pile de sécurité sur les modèles plus petits.

Model Evaluation security Anthropic AI safety

ARTICLE↑ trendingReddit r/LocalLLaMA·26/04/2026

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

Ce contenu examine le modèle Qwen3.6 35B A3B Heretic, le présentant comme le meilleur modèle 35B non censuré que l'utilisateur ait trouvé. Il souligne sa capacité à tenir dans 24 Go de VRAM, à gérer les appels d'outils multi-tours et son potentiel à surpasser le modèle original Qwen 3.6.

Model Evaluation Fine-tuning LLM

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

DOCOpenAI Blog·23/04/2026

GPT-5.5 System Card

Ce document, intitulé "Fiche Système GPT-5.5", détaille probablement les spécifications techniques, les capacités et les limitations du modèle de langage GPT-5.5. Il est conçu comme une référence complète pour comprendre le fonctionnement et les directives d'utilisation de ce système d'IA avancé.

Model Evaluation large language models AI safety Generative AI

RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

robustness LLMs Model Evaluation Reasoning

ARTICLEAWS Machine Learning Blog·il y a 20j

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

Le contenu aborde la nécessité des évaluateurs multimodaux, tels que MLLM-as-a-judge, pour les tâches d'image à texte dans des applications comme le shopping visuel et la compréhension de documents. Il souligne que les évaluateurs textuels seuls ne peuvent pas vérifier si les réponses du modèle d'IA sont réellement ancrées dans l'image source.

AI models multimodal AI MLLM Model Evaluation

RESEARCHDEV.to AI·22/04/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, un nouveau benchmark d'IBM Research, révèle que les agents IA échouent de manière prévisible et structurelle en cartographiant les points de rupture entre le raisonnement, la sélection d'outils et l'exécution. Il décompose l'échec des agents en six catégories spécifiques, allant au-delà des évaluations binaires traditionnelles pour découvrir les faiblesses courantes.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.AI·il y a 27j

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Cet article de recherche démontre que les ancres numériques intégrées aux images biaisent systématiquement les jugements de qualité des Modèles Vision-Langage (VLMs). Le sondage couche par couche révèle que les couches optimales pour la prédiction de qualité sont plus profondes que celles où la classification de l'ancre sature, établissant une explication causale du biais d'ancrage visuel.

neural networks Vision-Language Models Model Evaluation representation learning

RESEARCHarXiv CS.AI·14/04/2026

Seven simple steps for log analysis in AI systems

Cette recherche propose un pipeline standardisé pour l'analyse des logs dans les systèmes d'IA, comblant le manque d'une approche commune. Elle offre un cadre avec des exemples de code utilisant la bibliothèque Inspect Scout, guidant les chercheurs vers une analyse rigoureuse et reproductible.

Model Evaluation Log Analysis Reproducibility AI Systems

RESEARCHarXiv CS.CL·04/05/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Cette recherche explore des méthodes efficaces pour évaluer les grands modèles audio (LAMs) en utilisant des sous-ensembles de données minimaux, atteignant une corrélation élevée avec les benchmarks complets. Elle montre également que les modèles de régression entraînés sur ces sous-ensembles peuvent mieux prédire les préférences humaines pour la satisfaction des utilisateurs que les benchmarks complets.

Model Evaluation efficiency Benchmarks Large Audio Models

RESEARCHarXiv CS.CL·07/05/2026

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Cette étude examine les hallucinations des grands modèles linguistiques (ChatGPT, Grok, Gemini, Copilot) dans la rédaction académique, à l'aide de 80 invites réparties en quatre catégories. Une nouvelle métrique pondérée, l'indice d'hallucination (HI), a été introduite pour mesurer la précision factuelle et la validité des références.

academic writing AI quality Model Evaluation hallucinations

ARTICLEDEV.to AI·21/04/2026

A boy and his dog.

L'auteur décrit l'entraînement de "Scout", un modèle linguistique de 50 millions de paramètres, sur TinyStories, soulignant l'importance de la qualité des données et l'utilisation de sondes d'invite et de Claude Code pour l'évaluation. Il détaille la progression du modèle, notant sa capacité à se souvenir des sujets mais avec des difficultés de contexte et de répétition à 12 800 étapes.

prompt engineering Model Evaluation LLM training Data Quality

RESEARCHarXiv CS.CL·06/04/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

linguistic bias stereotyping LLM bias task-dependent bias

RESEARCHarXiv CS.AI·il y a 6j

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Cet article évalue la "surréflexion nuisible" dans les grands modèles de raisonnement, où un raisonnement continu après une réponse correcte peut déstabiliser la trajectoire. Il introduit un protocole pour distinguer la surréflexion verbeuse de la nuisible, identifiant des problèmes dans les benchmarks multimodaux.

multimodal AI Overthinking Model Evaluation AI Reasoning

DOCDEV.to AI·10/05/2026

65. ROC Curves and AUC: Comparing Models Fairly

Ce contenu explique comment utiliser les courbes ROC et l'AUC pour comparer équitablement les modèles de classification en évaluant leurs performances sur tous les seuils possibles. Il détaille ce qu'ils sont, comment les interpréter et quand les utiliser au lieu d'autres métriques, y compris les idées fausses courantes.

Classification Model Evaluation machine learning ROC curve

RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.

reinforcement learning AI training Large Language Models (LLMs)Model Evaluation

RESEARCHarXiv CS.CL·30/04/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Cette recherche analyse l'utilisation de LLM légers pour la reconnaissance d'entités nommées biomédicales, prouvant qu'ils peuvent atteindre des performances compétitives. L'étude souligne leur potentiel comme alternatives économes en ressources et identifie des formats de sortie spécifiques qui améliorent constamment les performances.

LLMs named entity recognition Model Evaluation NLP