← heapsort-ai

interactive AI

5 items

RESEARCHarXiv CS.AI·9/5/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Este artículo presenta BALAR (Bayesian Agentic Loop for Active Reasoning), un algoritmo de bucle externo agnóstico a la tarea que permite la interacción estructurada en múltiples turnos entre un agente LLM y un usuario. BALAR mantiene una creencia estructurada sobre estados latentes, selecciona preguntas aclaratorias maximizando la información mutua esperada y supera significativamente a los modelos de referencia en diversos puntos de referencia de razonamiento.

27
RESEARCHarXiv CS.AI·hace 27d

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.

27