visual reasoning

3 items

RESEARCHDEV.to AI·10/05/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA é um novo conjunto de dados projetado para desafiar e avaliar sistemas de IA em raciocínio visual e resposta a perguntas composicionais. Ele visa promover a compreensão da cena e a interação multimodal em cenários do mundo real.

Question Answering visual reasoning computer vision datasets

RESEARCHarXiv CS.CL·10/04/2026

Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

Este artigo propõe o DLR, um framework de raciocínio latente reforçado para Vision-Language Models (VLMs) que melhora o raciocínio visual complexo, superando a perda de informação em CoT textual. Ele decompõe dinamicamente consultas, extrai latentes visuais e deduz respostas, oferecendo maior interpretabilidade e superando baselines em benchmarks vision-centric.

Vision-Language Models visual reasoning Reinforced Latent Reasoning Chain-of-Thought

NEWSQwen Blog·27/03/2025

QVQ-Max: Think with Evidence

A Qwen lançou oficialmente o QVQ-Max, um modelo de raciocínio visual capaz de compreender, analisar e raciocinar com informações de imagens e vídeos. Ele demonstra habilidades impressionantes na resolução de problemas complexos, desde matemática e programação até criação artística.

multimodal AI visual reasoning QVQ-Max AI