← heapsort-ai

medical AI

34 items

ARTICLEDEV.to AI·13/04/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

O artigo revela a importância crítica de benchmarks rigorosos e padronizados para agentes de IA em diagnósticos médicos até 2026, questionando a prontidão da IA para adoção clínica generalizada. Ele enfatiza que, sem validação de desempenho adequada, o potencial revolucionário da IA na saúde permanece em grande parte teórico e não confiável.

27
RESEARCHarXiv CS.LG·05/05/2026

GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI

GAZE é um framework que permite a VLMs médicos analisar imagens de RMN cerebral de forma iterativa, utilizando ferramentas de visualização e recuperação de literatura. O sistema alcançou 58,2 mAP na localização de lesões e 34,9% de precisão diagnóstica no benchmark NOVA para condições neurológicas raras.

27
RESEARCHarXiv CS.CL·05/05/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

O framework CLEAR é introduzido para avaliar como a ambiguidade e a incerteza afetam a confiabilidade dos Modelos de Linguagem Grandes (LLMs) médicos, indo além de benchmarks simplificados. Ele perturba sistematicamente as opções de resposta e seu enquadramento semântico, revelando que o aumento de respostas plausíveis degrada o desempenho dos LLMs e a cautela diminui com a formulação incerta da abstenção.

27
RESEARCHarXiv CS.CL·16/04/2026

A Proactive EMR Assistant for Doctor-Patient Dialogue: Streaming ASR, Belief Stabilization, and Preliminary Controlled Evaluation

Este artigo apresenta um assistente proativo de EMR para o diálogo médico-paciente, que supera sistemas passivos ao integrar ASR streaming, estabilização de crenças e planejamento de ações. O sistema foi avaliado em um ambiente controlado preliminar, alcançando um F1 de 0.84 e Recall@5 de 0.87.

27
RESEARCHarXiv CS.CL·24/04/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Este trabalho apresenta uma função de perda com reponderação de tokens para aumentar a eficiência de dados no treinamento de modelos de visão-linguagem para geração de relatórios médicos. Ao priorizar tokens semanticamente salientes, o método alcança qualidade de relatório comparável usando até dez vezes menos dados de treinamento.

27
RESEARCHarXiv CS.LG·21/04/2026

A Discordance-Aware Multimodal Framework with Multi-Agent Clinical Reasoning

Esta pesquisa propõe uma estrutura multimodal consciente da discordância para osteoartrite do joelho, combinando modelos de previsão de aprendizado de máquina com um sistema de raciocínio multiagente. O sistema utiliza diversas modalidades de dados, como características tabulares, ressonância magnética e embeddings de raios-X, para prever a progressão da perda do espaço articular e da dor.

27
RESEARCHarXiv CS.LG·24/04/2026

Clinically Interpretable Sepsis Early Warning via LLM-Guided Simulation of Temporal Physiological Dynamics

Este artigo propõe uma estrutura de simulação temporal guiada por LLM para alerta precoce e interpretabilidade da sepse. O modelo simula trajetórias fisiológicas antes do início da doença, integrando extração de recursos, pistas de raciocínio clínico e pós-processamento para previsões clinicamente plausíveis.

27
RESEARCHarXiv CS.AI·6d atrás

Traj-Evolve: A Self-Evolving Multi-Agent System for Patient Trajectory Modeling in Lung Cancer Early Detection

Traj-Evolve é um sistema multiagente autoevoluído para modelar trajetórias de pacientes a partir de registros de saúde eletrônicos, visando a detecção precoce de câncer de pulmão. Ele utiliza um Pool de Experiência para recuperar casos semelhantes e aprendizagem por reforço multiagente para otimizar a colaboração entre agentes.

27
RESEARCHarXiv CS.LG·08/04/2026

PRIME: Prototype-Driven Multimodal Pretraining for Cancer Prognosis with Missing Modalities

PRIME é um novo framework de pré-treinamento multimodal auto-supervisionado projetado para prognóstico de câncer, que aborda o desafio de modalidades de dados ausentes em coortes clínicas. Ele integra imagens de histopatologia, expressão gênica e relatórios patológicos, aprendendo representações robustas por meio de imputação semântica no espaço latente e objetivos de alinhamento intermodal.

27
RESEARCHarXiv CS.LG·30/04/2026

A Multimodal and Explainable Machine Learning Approach to Diagnosing Multi-Class Ejection Fraction from Electrocardiograms

Esta pesquisa desenvolveu uma estrutura de aprendizado de máquina multimodal que combina características de ECG e dados de prontuários eletrônicos para diagnosticar a fração de ejeção ventricular esquerda em várias classes. O modelo alcançou altas AUROCs e usou SHAP para explicabilidade, superando os modelos de linha de base.

27
RESEARCHarXiv CS.LG·06/05/2026

PRISM-CTG: A Foundation Model for Cardiotocography Analysis with Multi-View SSL

PRISM-CTG é um modelo de fundação auto-supervisionado para análise de cardiotocografia (CTG), que aborda as limitações de dados rotulados e coortes de pacientes restritas. Ele utiliza um framework de auto-supervisão multi-view para aprender representações transferíveis a partir de grandes volumes de gravações não rotuladas.

27
RESEARCHarXiv CS.AI·08/04/2026

MedGemma 1.5 Technical Report

O MedGemma 1.5 4B é um novo modelo que expande as capacidades do MedGemma 1, integrando análise de imagens médicas de alta dimensão (CT/MRI, histopatologia), localização anatômica e compreensão de documentos médicos. Ele demonstra ganhos significativos em precisão de classificação de condições em MRI e CT, e um aumento de 47% no macro F1 para imagens de patologia de lâmina inteira.

27