← heapsort-ai

medical AI

34 items

ARTICLEDEV.to AI·13/04/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

L'article révèle l'importance critique de benchmarks rigoureux et standardisés pour les agents d'IA en diagnostic médical d'ici 2026, remettant en question la préparation de l'IA pour une adoption clinique généralisée. Il souligne que, sans une validation de performance adéquate, le potentiel révolutionnaire de l'IA dans les soins de santé reste en grande partie théorique et non fiable.

27
RESEARCHarXiv CS.LG·05/05/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE est un framework permettant aux Modèles Vision-Langage (VLM) médicaux d'analyser de manière itérative des images d'IRM cérébrale à l'aide d'outils de visualisation et de récupération de littérature. Il a atteint 58,2 mAP pour la localisation des lésions et 34,9 % de précision diagnostique Top-1 sur le benchmark NOVA pour les affections neurologiques rares.

27
RESEARCHarXiv CS.CL·05/05/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Le framework CLEAR est introduit pour évaluer comment l'ambiguïté et l'incertitude affectent la fiabilité des grands modèles linguistiques (LLM) médicaux, au-delà des benchmarks simplifiés. Il perturbe systématiquement les options de réponse et leur cadrage sémantique, révélant qu'un nombre accru de réponses plausibles dégrade les performances des LLM et que la prudence diminue avec un libellé d'abstention incertain.

27
RESEARCHarXiv CS.CL·16/04/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Cet article présente un assistant EMR proactif pour le dialogue médecin-patient, qui surmonte les systèmes passifs en intégrant l'ASR en streaming, la stabilisation des croyances et la planification d'actions. Le système a été évalué dans un cadre contrôlé préliminaire, atteignant un F1 de 0.84 et un Recall@5 de 0.87.

27
RESEARCHarXiv CS.CL·24/04/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Ce travail introduit une fonction de perte de repondération de jetons pour améliorer l'efficacité des données lors de l'entraînement de modèles vision-langage pour la génération de rapports médicaux. En priorisant les jetons sémantiquement pertinents, la méthode atteint une qualité de rapport comparable en utilisant jusqu'à dix fois moins de données d'entraînement.

27
RESEARCHarXiv CS.LG·21/04/2026

A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

Cette recherche propose un cadre multimodal conscient de la discordance pour l'arthrose du genou, intégrant des modèles de prédiction d'apprentissage automatique et un système de raisonnement multi-agent. Il exploite diverses modalités de données, y compris des caractéristiques tabulaires, des IRM et des embeddings de rayons X, pour prédire la progression de la perte d'espace articulaire et de la douleur.

27
RESEARCHarXiv CS.LG·24/04/2026

Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics

Cet article propose un cadre de simulation temporelle guidé par LLM pour l'alerte précoce et interprétable de la septicémie. Le modèle simule les trajectoires physiologiques avant l'apparition de la maladie, intégrant l'extraction de caractéristiques, des indices de raisonnement clinique et un post-traitement pour des prédictions physiologiquement plausibles.

27
RESEARCHarXiv CS.AI·il y a 7j

Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

Traj-Evolve est un système multi-agent auto-évolutif conçu pour modéliser les trajectoires des patients à partir des dossiers de santé électroniques pour la détection précoce du cancer du poumon. Il utilise un Pool d'Expérience pour récupérer des cas similaires et l'apprentissage par renforcement multi-agent pour optimiser la collaboration.

27
RESEARCHarXiv CS.LG·08/04/2026

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

PRIME é um novo framework de pré-treinamento multimodal auto-supervisionado projetado para prognóstico de câncer, que aborda o desafio de modalidades de dados ausentes em coortes clínicas. Ele integra imagens de histopatologia, expressão gênica e relatórios patológicos, aprendendo representações robustas por meio de imputação semântica no espaço latente e objetivos de alinhamento intermodal.

27
RESEARCHarXiv CS.LG·30/04/2026

A Multimodal and Explainable Machine Learning Approach to Diagnosing Multi-Class Ejection Fraction from Electrocardiograms

Cette recherche a développé un cadre d'apprentissage automatique multimodal combinant des caractéristiques d'ECG et des données EHR pour diagnostiquer la fraction d'éjection ventriculaire gauche multi-classes. Le modèle a atteint des AUROC élevées et a utilisé SHAP pour l'explicabilité, surpassant les modèles de référence.

27
RESEARCHarXiv CS.LG·06/05/2026

PRISM-CTG: A Foundation Model for Cardiotocography Analysis with Multi-View SSL

PRISM-CTG est un modèle de fondation auto-supervisé pour l'analyse de la cardiotocographie (CTG), conçu pour surmonter les limitations des ensembles de données étiquetés et des cohortes de patients restreintes. Il utilise un cadre d'auto-supervision multi-vue pour apprendre des représentations transférables à partir d'enregistrements non étiquetés à grande échelle.

27
RESEARCHarXiv CS.AI·08/04/2026

MedGemma 1.5 Technical Report

O MedGemma 1.5 4B é um novo modelo que expande as capacidades do MedGemma 1, integrando análise de imagens médicas de alta dimensão (CT/MRI, histopatologia), localização anatômica e compreensão de documentos médicos. Ele demonstra ganhos significativos em precisão de classificação de condições em MRI e CT, e um aumento de 47% no macro F1 para imagens de patologia de lâmina inteira.

27