RESEARCH27

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

DEV.to AI·7 de mayo de 2026

Un nuevo estudio demuestra que los modelos de lenguaje multimodal (LLMs) como GPT-4.1 muestran una caída significativa en la precisión diagnóstica en casos reales de dermatología hospitalaria, en comparación con los benchmarks públicos. La investigación, que abarcó 5.811 casos, reveló que GPT-4.1 alcanzó un 24,65% de precisión en entornos clínicos reales frente a un 42,25% en los benchmarks.

LLMs Healthcare Dermatology benchmarking AI

Leer original ↗