medical AI

34 items

ARTICLEDEV.to AI·13/4/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

El artículo revela la importancia crítica de puntos de referencia rigurosos y estandarizados para agentes de IA en diagnósticos médicos para 2026, cuestionando la preparación de la IA para una adopción clínica generalizada. Enfatiza que, sin una validación de rendimiento adecuada, el potencial revolucionario de la IA en la atención médica sigue siendo en gran medida teórico y no confiable.

AI Benchmarks Diagnostic AI AI validation healthcare AI

RESEARCHarXiv CS.LG·5/5/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE es un framework que permite a los Modelos de Visión-Lenguaje (VLM) médicos analizar imágenes de RMN cerebral de forma iterativa, utilizando herramientas de visualización y recuperación de literatura. Alcanzó 58.2 mAP en localización de lesiones y 34.9% de precisión diagnóstica Top-1 en el benchmark NOVA para condiciones neurológicas raras.

Vision-Language Models neurology Benchmarking medical AI

RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Se introduce el framework CLEAR para evaluar cómo la ambigüedad y la incerteza afectan la fiabilidad de los Modelos de Lenguaje Grandes (LLMs) médicos, yendo más allá de los benchmarks simplificados. Perturba sistemáticamente las opciones de respuesta y su encuadre semántico, revelando que el aumento de respuestas plausibles degrada el rendimiento de los LLMs y la precaución disminuye con un fraseo incierto de abstención.

Ambiguity LLMs evaluation Reliability

RESEARCHarXiv CS.CL·16/4/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Este artículo presenta un asistente proactivo de EMR para el diálogo médico-paciente, que supera los sistemas pasivos al integrar ASR en streaming, estabilización de creencias y planificación de acciones. El sistema fue evaluado en un entorno controlado preliminar, logrando un F1 de 0.84 y Recall@5 de 0.87.

Natural Language Processing ASR healthcare AI medical AI

RESEARCHarXiv CS.CL·24/4/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Este trabajo introduce una función de pérdida de reponderación de tokens para mejorar la eficiencia de datos en el entrenamiento de modelos de visión-lenguaje para la generación de informes médicos. Al priorizar tokens semánticamente importantes, el método logra una calidad de informe comparable utilizando hasta diez veces menos datos de entrenamiento.

Data efficiency machine learning computer vision natural language generation

RESEARCHarXiv CS.LG·21/4/2026

A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

Esta investigación propone un marco multimodal consciente de la discordancia para la osteoartritis de rodilla, integrando modelos de predicción de aprendizaje automático con un sistema de razonamiento multiagente. Utiliza diversas modalidades de datos, incluyendo características tabulares, resonancia magnética y embeddings de rayos X, para predecir la progresión de la pérdida del espacio articular y el dolor.

multimodal AI machine learning multi-agent systems medical AI

RESEARCHarXiv CS.LG·24/4/2026

Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics

Este artículo propone un marco de simulación temporal guiado por LLM para la alerta temprana e interpretable de sepsis. El modelo simula trayectorias fisiológicas antes del inicio de la enfermedad, utilizando extracción de características, señales de razonamiento clínico y post-procesamiento para predicciones clínicamente plausibles.

Healthcare early warning systems simulation medical AI

RESEARCHarXiv CS.AI·hace 7d

Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

Traj-Evolve es un sistema multiagente autoevolutivo para modelar trayectorias de pacientes a partir de registros de salud electrónicos, enfocado en la detección temprana del cáncer de pulmón. Emplea un Pool de Experiencia para recuperar casos similares y aprendizaje por refuerzo multiagente para optimizar la colaboración.

Healthcare machine learning AI multi-agent systems

RESEARCHGoogle DeepMind Blog·30/4/2026

Enabling a new model for healthcare with AI co-clinician

Este contenido explora la investigación sobre el futuro de la atención médica con IA, centrándose en el desarrollo de un co-clínico de IA. El objetivo es crear un modelo de atención médica aumentado por inteligencia artificial.

AI-assisted Healthcare medical AI

Enabling a new model for healthcare with AI co-clinician

RESEARCHarXiv CS.LG·8/4/2026

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

PRIME é um novo framework de pré-treinamento multimodal auto-supervisionado projetado para prognóstico de câncer, que aborda o desafio de modalidades de dados ausentes em coortes clínicas. Ele integra imagens de histopatologia, expressão gênica e relatórios patológicos, aprendendo representações robustas por meio de imputação semântica no espaço latente e objetivos de alinhamento intermodal.

self-supervised learning Multimodal Pretraining Missing Modalities Cancer Prognosis

RESEARCHarXiv CS.LG·30/4/2026

A Multimodal and Explainable Machine Learning Approach to Diagnosing Multi-Class Ejection Fraction from Electrocardiograms

Esta investigación desarrolló un marco de aprendizaje automático multimodal que combina características de ECG y datos de EHR para diagnosticar la fracción de eyección ventricular izquierda multiclasa. El modelo logró AUROC altas y utilizó SHAP para la explicabilidad, superando a los modelos de referencia.

machine learning Explainable AI medical AI

RESEARCHarXiv CS.AI·6/5/2026

ClinicBot: A Guideline-Grounded Clinical Chatbot with Prioritized Evidence RAG and Verifiable Citations

ClinicBot es un sistema de IA diseñado para proporcionar apoyo clínico confiable traduciendo recomendaciones de guías oficiales. Aborda el problema de las alucinaciones de los LLM en contextos médicos de alto riesgo mediante la extracción estructurada de directrices y la priorización de pruebas.

Healthcare RAG Chatbot AI

RESEARCHarXiv CS.LG·6/5/2026

PRISM-CTG: A Foundation Model for Cardiotocography Analysis with Multi-View SSL

PRISM-CTG es un modelo de fundación auto-supervisado para el análisis de cardiotocografía (CTG) que aborda las limitaciones de los conjuntos de datos etiquetados y las cohortes de pacientes pequeñas. Utiliza un marco de auto-supervisión multi-vista para aprender representaciones transferibles de grabaciones no etiquetadas a gran escala.

self-supervision learning CTG analysis Foundation Models

RESEARCHarXiv CS.AI·8/4/2026

MedGemma 1.5 Technical Report

O MedGemma 1.5 4B é um novo modelo que expande as capacidades do MedGemma 1, integrando análise de imagens médicas de alta dimensão (CT/MRI, histopatologia), localização anatômica e compreensão de documentos médicos. Ele demonstra ganhos significativos em precisão de classificação de condições em MRI e CT, e um aumento de 47% no macro F1 para imagens de patologia de lâmina inteira.

deep learning AI healthcare AI Medical Imaging