medical AI

34 items

ARTICLEDEV.to AI·4/13/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

Der Artikel hebt die kritische Bedeutung strenger, standardisierter Benchmarks für KI-Agenten in der medizinischen Diagnostik bis 2026 hervor und hinterfragt die Einsatzbereitschaft von KI für eine breite klinische Anwendung. Ohne ordnungsgemäße Leistungsvalidierung bleibt das revolutionäre Potenzial von KI im Gesundheitswesen weitgehend theoretisch und unzuverlässig.

AI Benchmarks Diagnostic AI AI validation healthcare AI

RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE ist ein Framework, das medizinischen Vision-Language-Modellen (VLMs) ermöglicht, Gehirn-MRT-Bilder iterativ mithilfe von Viewer-Tools und Literaturabruf zu analysieren. Es erreichte 58,2 mAP bei der Läsionslokalisierung und 34,9 % Top-1-Diagnosegenauigkeit auf dem NOVA-Benchmark für seltene neurologische Erkrankungen.

Vision-Language Models neurology Benchmarking medical AI

RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

Ambiguity LLMs evaluation Reliability

RESEARCHarXiv CS.CL·4/16/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Dieses Papier stellt einen proaktiven EMR-Assistenten für den Arzt-Patienten-Dialog vor, der entwickelt wurde, um die Einschränkungen passiver Systeme durch die Integration von Streaming-ASR, Glaubensstabilisierung und Aktionsplanung zu überwinden. Das System wurde in einer vorläufigen kontrollierten Umgebung evaluiert und erreichte einen F1-Wert von 0,84 sowie einen Recall@5 von 0,87.

Natural Language Processing ASR healthcare AI medical AI

RESEARCHarXiv CS.CL·4/24/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Diese Arbeit führt eine Token-Neugewichtungs-Verlustfunktion ein, um die Dateneffizienz beim Training von Vision-Sprachmodellen für die Erstellung medizinischer Berichte zu steigern. Durch die Priorisierung semantisch relevanter Token erzielt die Methode eine vergleichbare Berichtsqualität mit bis zu zehnmal weniger Trainingsdaten.

Data efficiency machine learning computer vision natural language generation

RESEARCHarXiv CS.LG·4/21/2026

A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

Diese Forschung schlägt ein diskordanzbewusstes multimodales Framework für Kniearthrose vor, das maschinelle Lernvorhersagemodelle mit einem Multi-Agenten-Reasoning-System kombiniert. Es nutzt verschiedene Datenmodalitäten, darunter tabulare Merkmale, MRT- und Röntgen-Embeddings, um die Progression von Gelenkspaltverlust und Schmerz vorherzusagen.

multimodal AI machine learning multi-agent systems medical AI

RESEARCHarXiv CS.LG·4/24/2026

Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics

Dieses Papier schlägt ein LLM-geleitetes temporales Simulationsframework für die klinisch interpretierbare Sepsis-Frühwarnung vor. Das Modell simuliert physiologische Verläufe vor Krankheitsbeginn, indem es Merkmalsextraktion, medizinische Hinweise und agenten-basiertes Post-Processing für physiologisch plausible Vorhersagen integriert.

Healthcare early warning systems simulation medical AI

RESEARCHarXiv CS.AI·vor 6T

Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

Traj-Evolve ist ein sich selbst entwickelndes Multi-Agenten-System zur Modellierung von Patientenverläufen aus elektronischen Gesundheitsakten für die Früherkennung von Lungenkrebs. Es nutzt einen Erfahrungs-Pool zur Wiederherstellung ähnlicher Fälle und Multi-Agenten-Reinforcement-Learning zur Optimierung der Zusammenarbeit der Agenten.

Healthcare machine learning AI multi-agent systems

RESEARCHGoogle DeepMind Blog·4/30/2026

Enabling a new model for healthcare with AI co-clinician

Dieser Inhalt befasst sich mit der Forschung zur Zukunft des Gesundheitswesens mit KI, wobei der Schwerpunkt auf der Entwicklung eines KI-Co-Klinikers liegt. Ziel ist die Schaffung eines KI-gestützten Versorgungsmodells.

AI-assisted Healthcare medical AI

Enabling a new model for healthcare with AI co-clinician

RESEARCHarXiv CS.LG·4/8/2026

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

PRIME é um novo framework de pré-treinamento multimodal auto-supervisionado projetado para prognóstico de câncer, que aborda o desafio de modalidades de dados ausentes em coortes clínicas. Ele integra imagens de histopatologia, expressão gênica e relatórios patológicos, aprendendo representações robustas por meio de imputação semântica no espaço latente e objetivos de alinhamento intermodal.

self-supervised learning Multimodal Pretraining Missing Modalities Cancer Prognosis

RESEARCHarXiv CS.LG·4/30/2026

A Multimodal and Explainable Machine Learning Approach to Diagnosing Multi-Class Ejection Fraction from Electrocardiograms

Diese Forschung entwickelte ein multimodales maschinelles Lernframework, das EKG-Merkmale und EHR-Daten kombiniert, um die mehrklassige linksventrikuläre Ejektionsfraktion zu diagnostizieren. Das Modell erreichte hohe AUROCs und nutzte SHAP zur Erklärbarkeit, wodurch es Basismodelle übertraf.

machine learning Explainable AI medical AI

RESEARCHarXiv CS.AI·5/6/2026

ClinicBot: A Guideline-Grounded Clinical Chatbot with Prioritized Evidence RAG and Verifiable Citations

ClinicBot ist ein KI-System, das entwickelt wurde, um vertrauenswürdige klinische Unterstützung durch die Übersetzung offizieller Leitlinienempfehlungen zu bieten. Es adressiert das Problem der LLM-Halluzinationen in risikoreichen medizinischen Kontexten durch strukturierte Leitlinienextraktion und Evidenzpriorisierung.

Healthcare RAG Chatbot AI

RESEARCHarXiv CS.LG·5/6/2026

PRISM-CTG: A Foundation Model for Cardiotocography Analysis with Multi-View SSL

PRISM-CTG ist ein selbstüberwachtes Fundamentmodell für die Kardiotokographie (CTG)-Analyse, das die Einschränkungen kleiner beschrifteter Datensätze und Patientenkohorten überwindet. Es nutzt ein Multi-View-Selbstüberwachungsframework, um übertragbare domänenübergreifende Repräsentationen aus großen Mengen unbeschrifteter Aufzeichnungen zu lernen.

self-supervision learning CTG analysis Foundation Models

RESEARCHarXiv CS.AI·4/8/2026

MedGemma 1.5 Technical Report

O MedGemma 1.5 4B é um novo modelo que expande as capacidades do MedGemma 1, integrando análise de imagens médicas de alta dimensão (CT/MRI, histopatologia), localização anatômica e compreensão de documentos médicos. Ele demonstra ganhos significativos em precisão de classificação de condições em MRI e CT, e um aumento de 47% no macro F1 para imagens de patologia de lâmina inteira.

deep learning AI healthcare AI Medical Imaging