← heapsort-ai

MLLMs

7 items

RESEARCHarXiv CS.AI·il y a 20h

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage est un cadre en trois étapes qui aborde l'adjudication de preuves en pathologie, séparant explicitement la récupération des connaissances, la collecte des preuves et leur adjudication. Il utilise un système agentique avec une Délibération Structurée des Preuves pour évaluer indépendamment les preuves hétérogènes et réduire les biais d'ancrage.

54
RESEARCHarXiv CS.AI·16/04/2026

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

Cet article propose le framework LAMO pour relever le défi du déploiement d'agents GUI autonomes légers alimentés par des MLLM sur des appareils aux ressources limitées. LAMO améliore les MLLM légers avec des connaissances spécifiques à l'interface graphique et une évolutivité des tâches grâce à une orchestration multi-rôles.

31
RESEARCHarXiv CS.LG·21/04/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer est un nouveau cadre pour l'alignement de la sécurité des MLLMs dans les dialogues multi-tours, luttant contre les attaques exploitant l'historique visuo-textuel et la dégradation de la sécurité en contexte long. Cette méthode utilise le bootstrapping synthétique et la dynamique de feedback, et introduit également le dataset STEER pour l'entraînement et l'évaluation.

27
RESEARCHarXiv CS.CL·il y a 12j

ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment

L'article propose ICG, un nouveau cadre pour la génération personnalisée d'images de couverture intégrant la sollicitation basée sur les MLLM avec l'alignement des préférences. Il utilise des caractéristiques sémantiques et des embeddings d'utilisateur pour contextualiser le modèle de diffusion et adopte une stratégie d'apprentissage multi-récompense pour pallier le manque de supervision étiquetée.

27