RESEARCHDEV.to AI·7/5/2026
GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks
Un nuevo estudio demuestra que los modelos de lenguaje multimodal (LLMs) como GPT-4.1 muestran una caída significativa en la precisión diagnóstica en casos reales de dermatología hospitalaria, en comparación con los benchmarks públicos. La investigación, que abarcó 5.811 casos, reveló que GPT-4.1 alcanzó un 24,65% de precisión en entornos clínicos reales frente a un 42,25% en los benchmarks.
27