RESEARCH27

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

DEV.to AI·7 mai 2026

Une nouvelle étude révèle que les modèles de langage multimodaux (LLMs) comme GPT-4.1 montrent une baisse significative de la précision diagnostique dans des cas réels de dermatologie hospitalière, par rapport aux benchmarks publics. La recherche, portant sur 5 811 cas, a montré que GPT-4.1 atteignait une précision de 24,65 % dans des contextes cliniques réels contre 42,25 % sur les benchmarks.

LLMs Healthcare Dermatology Benchmarking AI

Lire l'original ↗