Dermatology — KI-Artikel, Nachrichten & Forschung

RESEARCHDEV.to AI·5/7/2026

GPT-4.1 Hits 24.65% Derm Accuracy on Real Cases vs 42.25% Benchmarks

Eine neue Studie zeigt, dass multimodale Sprachmodelle (LLMs) wie GPT-4.1 einen deutlichen Rückgang der diagnostischen Genauigkeit bei echten dermatologischen Fällen im Krankenhaus aufweisen, im Vergleich zu öffentlichen Benchmarks. Die Untersuchung, die 5.811 Fälle umfasste, ergab, dass GPT-4.1 in realen klinischen Umgebungen eine Genauigkeit von 24,65 % erreichte, gegenüber 42,25 % bei Benchmarks.

LLMs Healthcare Dermatology benchmarking