← heapsort-ai

medical AI

34 items

ARTICLEDEV.to AI·4/13/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

Der Artikel hebt die kritische Bedeutung strenger, standardisierter Benchmarks für KI-Agenten in der medizinischen Diagnostik bis 2026 hervor und hinterfragt die Einsatzbereitschaft von KI für eine breite klinische Anwendung. Ohne ordnungsgemäße Leistungsvalidierung bleibt das revolutionäre Potenzial von KI im Gesundheitswesen weitgehend theoretisch und unzuverlässig.

27
RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE ist ein Framework, das medizinischen Vision-Language-Modellen (VLMs) ermöglicht, Gehirn-MRT-Bilder iterativ mithilfe von Viewer-Tools und Literaturabruf zu analysieren. Es erreichte 58,2 mAP bei der Läsionslokalisierung und 34,9 % Top-1-Diagnosegenauigkeit auf dem NOVA-Benchmark für seltene neurologische Erkrankungen.

27
RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Das CLEAR-Framework wird eingeführt, um zu bewerten, wie Ambiguität und Unsicherheit die Zuverlässigkeit medizinischer großer Sprachmodelle (LLMs) beeinflussen, jenseits vereinfachter Bewertungs-Benchmarks. Es variiert systematisch Antwortoptionen und deren semantische Formulierung, was zeigt, dass eine erhöhte Anzahl plausibler Antworten die LLM-Leistung beeinträchtigt und die Vorsicht bei unsicherer Abstinenzformulierung abnimmt.

27
RESEARCHarXiv CS.CL·4/16/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Dieses Papier stellt einen proaktiven EMR-Assistenten für den Arzt-Patienten-Dialog vor, der entwickelt wurde, um die Einschränkungen passiver Systeme durch die Integration von Streaming-ASR, Glaubensstabilisierung und Aktionsplanung zu überwinden. Das System wurde in einer vorläufigen kontrollierten Umgebung evaluiert und erreichte einen F1-Wert von 0,84 sowie einen Recall@5 von 0,87.

27
RESEARCHarXiv CS.CL·4/24/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Diese Arbeit führt eine Token-Neugewichtungs-Verlustfunktion ein, um die Dateneffizienz beim Training von Vision-Sprachmodellen für die Erstellung medizinischer Berichte zu steigern. Durch die Priorisierung semantisch relevanter Token erzielt die Methode eine vergleichbare Berichtsqualität mit bis zu zehnmal weniger Trainingsdaten.

27
RESEARCHarXiv CS.LG·4/21/2026

A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

Diese Forschung schlägt ein diskordanzbewusstes multimodales Framework für Kniearthrose vor, das maschinelle Lernvorhersagemodelle mit einem Multi-Agenten-Reasoning-System kombiniert. Es nutzt verschiedene Datenmodalitäten, darunter tabulare Merkmale, MRT- und Röntgen-Embeddings, um die Progression von Gelenkspaltverlust und Schmerz vorherzusagen.

27
RESEARCHarXiv CS.LG·4/24/2026

Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics

Dieses Papier schlägt ein LLM-geleitetes temporales Simulationsframework für die klinisch interpretierbare Sepsis-Frühwarnung vor. Das Modell simuliert physiologische Verläufe vor Krankheitsbeginn, indem es Merkmalsextraktion, medizinische Hinweise und agenten-basiertes Post-Processing für physiologisch plausible Vorhersagen integriert.

27
RESEARCHarXiv CS.AI·vor 6T

Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

Traj-Evolve ist ein sich selbst entwickelndes Multi-Agenten-System zur Modellierung von Patientenverläufen aus elektronischen Gesundheitsakten für die Früherkennung von Lungenkrebs. Es nutzt einen Erfahrungs-Pool zur Wiederherstellung ähnlicher Fälle und Multi-Agenten-Reinforcement-Learning zur Optimierung der Zusammenarbeit der Agenten.

27
RESEARCHarXiv CS.LG·4/8/2026

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

PRIME é um novo framework de pré-treinamento multimodal auto-supervisionado projetado para prognóstico de câncer, que aborda o desafio de modalidades de dados ausentes em coortes clínicas. Ele integra imagens de histopatologia, expressão gênica e relatórios patológicos, aprendendo representações robustas por meio de imputação semântica no espaço latente e objetivos de alinhamento intermodal.

27
RESEARCHarXiv CS.LG·5/6/2026

PRISM-CTG: A Foundation Model for Cardiotocography Analysis with Multi-View SSL

PRISM-CTG ist ein selbstüberwachtes Fundamentmodell für die Kardiotokographie (CTG)-Analyse, das die Einschränkungen kleiner beschrifteter Datensätze und Patientenkohorten überwindet. Es nutzt ein Multi-View-Selbstüberwachungsframework, um übertragbare domänenübergreifende Repräsentationen aus großen Mengen unbeschrifteter Aufzeichnungen zu lernen.

27
RESEARCHarXiv CS.AI·4/8/2026

MedGemma 1.5 Technical Report

O MedGemma 1.5 4B é um novo modelo que expande as capacidades do MedGemma 1, integrando análise de imagens médicas de alta dimensão (CT/MRI, histopatologia), localização anatômica e compreensão de documentos médicos. Ele demonstra ganhos significativos em precisão de classificação de condições em MRI e CT, e um aumento de 47% no macro F1 para imagens de patologia de lâmina inteira.

27