MLLMs

7 items

RESEARCHarXiv CS.AI·hace 20h

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage es un marco de tres etapas que aborda la adjudicación de evidencia en patología, separando explícitamente la recuperación de conocimiento, la recopilación y la adjudicación de evidencia. Utiliza un sistema agéntico con Deliberación Estructurada de Evidencia para evaluar de forma independiente la evidencia heterogénea y reducir el sesgo de anclaje.

agent workflows MLLMs pathology medical AI

RESEARCHDEV.to AI·hace 1d

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

WorldBench, un nuevo benchmark multimodal de investigadores del MIT, evalúa 15 MLLM en imágenes visualmente diversas, revelando brechas fundamentales en la comprensión visual, con el modelo superior puntuando solo un 64,0%. Este benchmark prioriza la diversidad visual sobre los tipos de tareas.

multimodal AI research AI Benchmarks MLLMs

RESEARCHarXiv CS.AI·16/4/2026

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

Este artículo propone el framework LAMO para abordar el desafío de desplegar agentes GUI autónomos ligeros impulsados por MLLMs en dispositivos con recursos limitados. LAMO mejora los MLLMs ligeros con conocimiento específico de GUI y escalabilidad de tareas mediante orquestación de múltiples roles.

AI frameworks MLLMs resource optimization multi-agent systems

RESEARCHDEV.to AI·18/4/2026

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

AMBER presenta un nuevo benchmark multidimensional, independiente de LLM, diseñado para evaluar rigurosamente la alucinación en Modelos de Lenguaje Grandes Multimodales (MLLMs). Esta investigación tiene como objetivo proporcionar una herramienta integral para analizar la fiabilidad y precisión de las salidas de los MLLMs.

hallucination MLLMs Benchmarking AI evaluation

RESEARCHarXiv CS.CL·8/5/2026

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Este artículo identifica y formaliza el

AI models research RAG MLLMs

RESEARCHarXiv CS.LG·21/4/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer es un nuevo marco para la alineación de seguridad de MLLMs en diálogos multi-turno, abordando ataques que explotan el historial visual-textual y la degradación de la seguridad en contextos largos. Este método utiliza bootstrapping sintético y dinámica de retroalimentación, y también introduce el conjunto de datos STEER para entrenamiento y evaluación.

Safety security MLLMs multi-turn

RESEARCHarXiv CS.CL·hace 12d

ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment

El artículo propone ICG, un nuevo marco para la generación personalizada de imágenes de portada que integra el prompting basado en MLLM con la alineación de preferencias. Utiliza características semánticas e incrustaciones de usuario para contextualizar el modelo de difusión y adopta una estrategia de aprendizaje de recompensas múltiples para abordar la falta de supervisión etiquetada.

personalization Diffusion Models MLLMs image generation