Dermatology — articles, actualités et recherches IA

RESEARCHDEV.to AI·07/05/2026

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

Une nouvelle étude révèle que les modèles de langage multimodaux (LLMs) comme GPT-4.1 montrent une baisse significative de la précision diagnostique dans des cas réels de dermatologie hospitalière, par rapport aux benchmarks publics. La recherche, portant sur 5 811 cas, a montré que GPT-4.1 atteignait une précision de 24,65 % dans des contextes cliniques réels contre 42,25 % sur les benchmarks.

LLMs Healthcare Dermatology Benchmarking