MLLM

2 items

ARTICLEAWS Machine Learning Blog·hace 20d

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

El contenido discute la necesidad de evaluadores multimodales, como MLLM-as-a-judge, para tareas de imagen a texto en aplicaciones de compras visuales y comprensión de documentos. Subraya que los evaluadores solo de texto son insuficientes para verificar si las respuestas del modelo de IA se basan realmente en la imagen de origen.

AI models multimodal AI MLLM Model Evaluation

RESEARCHarXiv CS.AI·hace 26d

Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents

El artículo propone la Selección de Acciones Guiada por Verificador (VegAS), un marco de tiempo de prueba para mejorar la robustez de los agentes incorporados basados en MLLM. Utiliza un verificador generativo para identificar la opción de acción más fiable de un conjunto de candidatos.

robustness MLLM embodied agents Verification