MLLMs

7 items

RESEARCHarXiv CS.AI·vor 23Std

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage ist ein dreistufiges Framework zur Evidenzbeurteilung in der Pathologie, das Wissensabruf, Evidenzsammlung und Evidenzbeurteilung explizit trennt. Es verwendet ein agentenbasiertes System mit Strukturierter Evidenzdeliberation, um heterogene Evidenzen unabhängig zu bewerten und Verankerungsfehler zu reduzieren.

agent workflows MLLMs pathology medical AI

RESEARCHDEV.to AI·vor 1T

WorldBench: Top MLLM Scores 64% on Visually Diverse Benchmark

WorldBench, ein neuer multimodaler Benchmark von MIT-Forschern, bewertet 15 MLLMs anhand visuell unterschiedlicher Bilder und deckt grundlegende Lücken im visuellen Verständnis auf, wobei das beste Modell nur 64,0% erreicht. Dieser Benchmark priorisiert visuelle Vielfalt, um Schwachstellen in Modellen aufzudecken.

multimodal AI research AI Benchmarks MLLMs

RESEARCHarXiv CS.AI·4/16/2026

Towards Scalable Lightweight GUI Agents via Multi-role Orchestration

Diese Arbeit schlägt das LAMO-Framework vor, um die Herausforderung des Einsatzes leichtgewichtiger MLLM-gestützter autonomer GUI-Agenten auf ressourcenbeschränkten Geräten zu bewältigen. LAMO erweitert leichtgewichtige MLLMs um GUI-spezifisches Wissen und Aufgabenskalierbarkeit durch Multi-Rollen-Orchestrierung.

AI frameworks MLLMs resource optimization multi-agent systems

RESEARCHDEV.to AI·4/18/2026

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

AMBER stellt einen neuen, LLM-freien, mehrdimensionalen Benchmark vor, der zur strengen Bewertung von Halluzinationen in multimodalen großen Sprachmodellen (MLLMs) entwickelt wurde. Diese Forschung zielt darauf ab, ein umfassendes Werkzeug zur Bewertung der Zuverlässigkeit und Genauigkeit von MLLM-Ausgaben bereitzustellen.

hallucination MLLMs Benchmarking AI evaluation

RESEARCHarXiv CS.CL·5/8/2026

The Cost of Context: Mitigating Textual Bias in Multimodal Retrieval-Augmented Generation

Dieses Papier identifiziert und formalisiert das

AI models research RAG MLLMs

RESEARCHarXiv CS.LG·4/21/2026

SaFeR-Steer: Evolving Multi-Turn MLLMs via Synthetic Bootstrapping and Feedback Dynamics

SaFeR-Steer ist ein neuer Rahmen zur Sicherheitsausrichtung von MLLMs in mehrstufigen Dialogen, der Angriffe bekämpft, die den visuellen und textlichen Verlauf sowie den Sicherheitsverfall in langen Kontexten ausnutzen. Diese Methode verwendet synthetisches Bootstrapping und Feedback-Dynamik und führt zudem den STEER-Datensatz für Training und Bewertung ein.

Safety security MLLMs multi-turn

RESEARCHarXiv CS.CL·vor 12T

ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment

Der Artikel stellt ICG vor, ein neuartiges Framework zur personalisierten Titelbilderzeugung, das MLLM-basiertes Prompting mit Präferenzanpassung kombiniert. Es nutzt semantische Merkmale und Benutzer-Embeddings zur Kontextualisierung des Diffusionsmodells und wendet eine Multi-Reward-Lernstrategie an, um den Mangel an beschrifteter Überwachung zu beheben.

personalization Diffusion Models MLLMs image generation