← heapsort-ai

interactive AI

5 items

RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artigo apresenta BALAR (Bayesian Agentic Loop for Active Reasoning), um algoritmo de loop externo agnóstico à tarefa que permite a interação estruturada de múltiplas rodadas entre um agente LLM e um usuário. Ele mantém uma crença estruturada sobre estados latentes, seleciona perguntas esclarecedoras maximizando a informação mútua esperada e supera significativamente as linhas de base em diversos benchmarks de raciocínio.

27
RESEARCHarXiv CS.AI·27d atrás

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Este artigo apresenta VLATIM, um novo benchmark para avaliar a capacidade de resolução de problemas lógicos de modelos de visão-linguagem (VLMs) em jogos de quebra-cabeça de física "point-and-click". Ele revela uma lacuna significativa entre o raciocínio e a execução em modelos proprietários grandes ao resolver o jogo The Incredible Machine 2.

27