RESEARCH27

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

DEV.to AI·7 de maio de 2026

Um novo estudo revela que modelos de linguagem multimodal (LLMs) como o GPT-4.1 demonstram uma queda significativa na precisão diagnóstica em casos reais de dermatologia hospitalar, comparado com os benchmarks públicos. A pesquisa, que envolveu 5.811 casos, mostrou que o GPT-4.1 teve uma precisão de 24,65% em cenários clínicos reais contra 42,25% em benchmarks.

LLMs Healthcare Dermatology benchmarking AI

Ler original ↗