MLLMs

7 items

RESEARCHarXiv CS.AI·il y a 20h

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage est un cadre en trois étapes qui aborde l'adjudication de preuves en pathologie, séparant explicitement la récupération des connaissances, la collecte des preuves et leur adjudication. Il utilise un système agentique avec une Délibération Structurée des Preuves pour évaluer indépendamment les preuves hétérogènes et réduire les biais d'ancrage.

agent workflows MLLMs pathology medical AI

RESEARCHDEV.to AI·il y a 1j

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

WorldBench, un nouveau benchmark multimodal de chercheurs du MIT, évalue 15 MLLM sur des images visuellement diverses, révélant des lacunes fondamentales dans la compréhension visuelle, le meilleur modèle n'obtenant qu'un score de 64,0%. Ce benchmark met l'accent sur la diversité visuelle pour exposer les faiblesses des modèles.

multimodal AI research AI Benchmarks MLLMs

RESEARCHarXiv CS.AI·16/04/2026

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

Cet article propose le framework LAMO pour relever le défi du déploiement d'agents GUI autonomes légers alimentés par des MLLM sur des appareils aux ressources limitées. LAMO améliore les MLLM légers avec des connaissances spécifiques à l'interface graphique et une évolutivité des tâches grâce à une orchestration multi-rôles.

AI frameworks MLLMs resource optimization multi-agent systems

RESEARCHDEV.to AI·18/04/2026

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

AMBER introduit un nouveau benchmark multidimensionnel, indépendant des LLM, conçu pour évaluer rigoureusement l'hallucination dans les Modèles de Langage Grande Multimodaux (MLLMs). Cette recherche vise à fournir un outil complet pour analyser la fiabilité et la précision des sorties des MLLMs.

hallucination MLLMs Benchmarking AI evaluation

RESEARCHarXiv CS.CL·08/05/2026

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Cet article identifie et formalise le

AI models research RAG MLLMs

RESEARCHarXiv CS.LG·21/04/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer est un nouveau cadre pour l'alignement de la sécurité des MLLMs dans les dialogues multi-tours, luttant contre les attaques exploitant l'historique visuo-textuel et la dégradation de la sécurité en contexte long. Cette méthode utilise le bootstrapping synthétique et la dynamique de feedback, et introduit également le dataset STEER pour l'entraînement et l'évaluation.

Safety security MLLMs multi-turn

RESEARCHarXiv CS.CL·il y a 12j

ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment

L'article propose ICG, un nouveau cadre pour la génération personnalisée d'images de couverture intégrant la sollicitation basée sur les MLLM avec l'alignement des préférences. Il utilise des caractéristiques sémantiques et des embeddings d'utilisateur pour contextualiser le modèle de diffusion et adopte une stratégie d'apprentissage multi-récompense pour pallier le manque de supervision étiquetée.

personalization Diffusion Models MLLMs image generation