← heapsort-ai

medical AI

34 items

RESEARCHarXiv CS.AI·il y a 20h

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage est un cadre en trois étapes qui aborde l'adjudication de preuves en pathologie, séparant explicitement la récupération des connaissances, la collecte des preuves et leur adjudication. Il utilise un système agentique avec une Délibération Structurée des Preuves pour évaluer indépendamment les preuves hétérogènes et réduire les biais d'ancrage.

54
RESEARCHarXiv CS.CL·il y a 19j

MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction

Cet article présente MedicalBench, un nouveau benchmark pour évaluer les grands modèles de langage dans l'extraction de concepts médicaux à partir des dossiers de santé électroniques. Il se concentre sur le raisonnement médical implicite et l'ancrage des preuves, s'attaquant au défi d'identifier les concepts non explicitement énoncés.

29
RESEARCHarXiv CS.LG·il y a 17j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

29
RESEARCHarXiv CS.LG·il y a 27j

Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation

Cet article présente le modèle Convolutional Variational Deep Embedding (Conv-VaDE) pour l'analyse des microétats EEG. Il améliore l'interprétabilité en apprenant conjointement la reconstruction topographique et le regroupement probabiliste doux, permettant le décodage génératif de prototypes de clusters en topographies vérifiables.

29
RESEARCHarXiv CS.AI·il y a 14j

When Correct Beliefs Collapse: Epistemic Resilience of LLMs under Clinical Pressure

Cette recherche présente Med-Stress, un cadre pour tester la résilience épistémique des LLM dans le dialogue clinique, révélant qu'une haute précision diagnostique ne garantit pas la stabilité des croyances sous une pression croissante. Elle propose RBED et R-FT comme nouvelles défenses pour atténuer ce mode de défaillance en IA médicale.

28
ARTICLEMIT Tech Review AI·04/05/2026

Tailoring AI solutions for health care needs

Le marché de l'IA promet de grandes transformations, les soins de santé étant une cible privilégiée en raison des pressions financières, des pénuries de main-d'œuvre et du fardeau croissant des soins aux populations vieillissantes. Les développeurs d'IA ciblent des fonctions diverses, de la guérison du cancer à la rationalisation des processus.

28
ARTICLEDEV.to AI·il y a 25j

Why AI for Doctors Is Becoming Essential in Modern Medicine

94% des cadres de la santé estiment que l'IA est essentielle pour l'avenir de la médecine. L'intelligence artificielle assiste les médecins en numérisant les images de radiologie et en identifiant les cancers de la peau ou les cellules cancéreuses avec rapidité et précision. Elle agit comme un puissant deuxième avis, combinant sa vitesse avec le jugement humain et le contexte du patient.

28
RESEARCHarXiv CS.LG·07/05/2026

Investigating Trustworthiness of Nonparametric Deep Survival Models for Alzheimer's Disease Progression Analysis

Cette recherche examine la fiabilité et l'équité des modèles de survie profonde non paramétriques pour analyser la progression de la maladie d'Alzheimer (MA). Elle aborde le manque d'études prenant en compte les biais appris dans les modèles d'apprentissage profond pour la MA et propose de nouvelles métriques d'équité pour des prédictions fiables.

28
RESEARCHarXiv CS.CL·il y a 27j

ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV

Cet article introduit ClinicalBench, un nouveau benchmark de 400 questions pour tester la récupération sensible aux assertions dans les questions-réponses cliniques sur MIMIC-IV à partir de notes EHR réelles. Il présente également EpiKG, un système de graphe de connaissances patient qui améliore la récupération en tenant compte de la négation et de la temporalité, démontrant des améliorations significatives des performances des LLM cliniques.

28
RESEARCHarXiv CS.LG·15/04/2026

DBGL: Decay-aware Bipartite Graph Learning for Irregular Medical Time Series Classification

DBGL introduit une nouvelle méthode d'apprentissage par graphe bipartite sensible à la décroissance pour la classification des séries temporelles médicales irrégulières. Elle utilise un graphe bipartite patient-variable pour modéliser les schémas d'échantillonnage irréguliers et les relations entre variables, ainsi qu'un encodage de décroissance temporelle spécifique aux nœuds pour l'irrégularité de décroissance des variables.

28
ARTICLEDEV.to AI·17/04/2026

We Built a Medical AI With 383 Specialist Agents. Here's What Actually Works (and What Doesn't)

L'article partage les enseignements tirés de 18 mois de développement d'Helios Med, une IA médicale dotée de 383 agents spécialisés pour aider au raisonnement diagnostique. L'objectif est de fournir un deuxième avis approfondi aux médecins et aux patients, en abordant les limites des pratiques de santé actuelles et les erreurs de diagnostic.

28
RESEARCHarXiv CS.CL·il y a 18j

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Cet article introduit OGCaReBench, un nouveau benchmark axé sur la récupération pour évaluer la capacité des LLM à répondre à des questions cliniques allant au-delà des directives médicales typiques. Il comble le manque où la plupart des LLM médicaux sont formés sur des connaissances communes et axées sur les directives, alors que les soins réels impliquent souvent des cas rares non couverts par celles-ci.

28
RESEARCHarXiv CS.AI·il y a 6j

Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

Traj-Evolve est un système multi-agent auto-évolutif conçu pour modéliser les trajectoires des patients à partir des dossiers de santé électroniques pour la détection précoce du cancer du poumon. Il utilise un Pool d'Expérience pour récupérer des cas similaires et l'apprentissage par renforcement multi-agent pour optimiser la collaboration.

28
RESEARCHarXiv CS.AI·17/04/2026

Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

GazeX est un nouveau modèle de langage visuel entraîné sur les données de suivi oculaire et de raisonnement des radiologues pour améliorer l'interprétation des radiographies thoraciques. Le modèle apprend à émuler l'attention spatiale et temporelle des experts, visant à combler l'écart entre les sorties du modèle et le raisonnement diagnostique clinique.

27
RESEARCHarXiv CS.CL·10/04/2026

EMSDialog: Synthetic Multi-person Emergency Medical Service Dialogue Generation from Electronic Patient Care Reports via Multi-LLM Agents

O estudo apresenta o EMSDialog, um novo conjunto de dados de 4.414 conversas sintéticas multi-falantes para serviços médicos de emergência, geradas a partir de relatórios reais de pacientes usando uma pipeline de agentes multi-LLM. Este dataset, anotado com diagnósticos e tópicos, demonstra melhorias na precisão e estabilidade da previsão de diagnóstico conversacional.

27
RESEARCHarXiv CS.LG·01/05/2026

People-Centred Medical Image Analysis

Bien que les systèmes de diagnostic de l'IA médicale centrée sur les données soient précis, leur adoption clinique est limitée par un manque d'attention à la performance équitable et à l'intégration du flux de travail. Cet article propose une approche d'« Analyse d'images médicales centrée sur les personnes » pour résoudre ces défis interdépendants.

27
RESEARCHarXiv CS.CL·il y a 20j

Prompting language influences diagnostic reasoning and accuracy of large language models

Cette recherche a évalué l'impact de la langue d'invite sur le raisonnement diagnostique et la précision des grands modèles linguistiques (LLM) dans des contextes cliniques. Quatre des cinq modèles ont montré de meilleures performances en anglais, soulignant l'incertitude quant à la fiabilité des LLM dans d'autres langues.

27
ARTICLEDEV.to AI·il y a 22j

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

Cet article propose la création d'un "Biomedical TransitionNet", un nouveau type de jeu de données analogue à ImageNet, mais axé sur les transitions d'états biologiques pour la prochaine génération d'IA médicale. Il soutient la nécessité d'une telle infrastructure pour construire des modèles du monde réel en biomédecine, allant au-delà de la classification et de la prédiction.

27