← heapsort-ai

Model Evaluation

28 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen3.6 can code

Un utilisateur, frustré par les modèles OpenAI, a essayé Qwen3.6-27b pour générer du code Svelte 5 et a obtenu un résultat parfait, bien que cela ait pris plus de temps. Il anticipe des développements intéressants au cours des 12 prochains mois, malgré le caractère informel de l'évaluation.

52
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Ce contenu présente un projet de recherche comparative analysant les "modèles oblitérés" (HauhauCS, Heretic, Huihui) par rapport à Qwen 3/3.5, en utilisant une suite forensique complète comprenant des benchmarks et des évaluations de sécurité. L'objectif est de vérifier les affirmations selon lesquelles ces modèles sont "sans perte et non censurés" et reproductibles par le lecteur.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Un utilisateur rapporte exécuter Qwen3.6-35b-a3b localement sur un MacBook Pro M5 Max avec une quantification 8 bits et un contexte de 64k, jugeant ses performances comparables à celles de Claude. Il est très impressionné par sa rapidité, sa capacité à gérer des tâches de recherche complexes et les avantages en matière de confidentialité de l'exécution locale.

42
DOCOpenAI Blog·23/04/2026

GPT-5.5 System Card

Ce document, intitulé "Fiche Système GPT-5.5", détaille probablement les spécifications techniques, les capacités et les limitations du modèle de langage GPT-5.5. Il est conçu comme une référence complète pour comprendre le fonctionnement et les directives d'utilisation de ce système d'IA avancé.

32
RESEARCHarXiv CS.LG·13/04/2026

Robust Reasoning Benchmark

Cette étude propose un nouveau benchmark pour évaluer la robustesse du raisonnement des LLM face aux perturbations textuelles, en l'appliquant à l'ensemble de données AIME 2024. Les résultats indiquent que les modèles de pointe sont résilients, tandis que les modèles open-source subissent des baisses de précision catastrophiques, révélant des fragilités structurelles.

30
ARTICLEAWS Machine Learning Blog·il y a 20j

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

Le contenu aborde la nécessité des évaluateurs multimodaux, tels que MLLM-as-a-judge, pour les tâches d'image à texte dans des applications comme le shopping visuel et la compréhension de documents. Il souligne que les évaluateurs textuels seuls ne peuvent pas vérifier si les réponses du modèle d'IA sont réellement ancrées dans l'image source.

29
RESEARCHDEV.to AI·22/04/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, un nouveau benchmark d'IBM Research, révèle que les agents IA échouent de manière prévisible et structurelle en cartographiant les points de rupture entre le raisonnement, la sélection d'outils et l'exécution. Il décompose l'échec des agents en six catégories spécifiques, allant au-delà des évaluations binaires traditionnelles pour découvrir les faiblesses courantes.

29
RESEARCHarXiv CS.AI·il y a 27j

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Cet article de recherche démontre que les ancres numériques intégrées aux images biaisent systématiquement les jugements de qualité des Modèles Vision-Langage (VLMs). Le sondage couche par couche révèle que les couches optimales pour la prédiction de qualité sont plus profondes que celles où la classification de l'ancre sature, établissant une explication causale du biais d'ancrage visuel.

29
RESEARCHarXiv CS.CL·04/05/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Cette recherche explore des méthodes efficaces pour évaluer les grands modèles audio (LAMs) en utilisant des sous-ensembles de données minimaux, atteignant une corrélation élevée avec les benchmarks complets. Elle montre également que les modèles de régression entraînés sur ces sous-ensembles peuvent mieux prédire les préférences humaines pour la satisfaction des utilisateurs que les benchmarks complets.

28
RESEARCHarXiv CS.CL·07/05/2026

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Cette étude examine les hallucinations des grands modèles linguistiques (ChatGPT, Grok, Gemini, Copilot) dans la rédaction académique, à l'aide de 80 invites réparties en quatre catégories. Une nouvelle métrique pondérée, l'indice d'hallucination (HI), a été introduite pour mesurer la précision factuelle et la validité des références.

28
ARTICLEDEV.to AI·21/04/2026

A boy and his dog.

L'auteur décrit l'entraînement de "Scout", un modèle linguistique de 50 millions de paramètres, sur TinyStories, soulignant l'importance de la qualité des données et l'utilisation de sondes d'invite et de Claude Code pour l'évaluation. Il détaille la progression du modèle, notant sa capacité à se souvenir des sujets mais avec des difficultés de contexte et de répétition à 12 800 étapes.

27
RESEARCHarXiv CS.CL·06/04/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27
RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.

27
RESEARCHarXiv CS.CL·30/04/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Cette recherche analyse l'utilisation de LLM légers pour la reconnaissance d'entités nommées biomédicales, prouvant qu'ils peuvent atteindre des performances compétitives. L'étude souligne leur potentiel comme alternatives économes en ressources et identifie des formats de sortie spécifiques qui améliorent constamment les performances.

27