← heapsort-ai

interactive AI

5 items

RESEARCHarXiv CS.AI·09/05/2026

BALAR : A Bayesian Agentic Loop for Active Reasoning

Cet article présente BALAR (Bayesian Agentic Loop for Active Reasoning), un algorithme de boucle externe indépendant de la tâche qui permet une interaction structurée en plusieurs tours entre un agent LLM et un utilisateur. BALAR maintient une croyance structurée sur les états latents, sélectionne les questions de clarification en maximisant l'information mutuelle attendue et surpasse significativement les bases de référence sur divers benchmarks de raisonnement.

27
RESEARCHarXiv CS.AI·il y a 27j

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Cet article introduit VLATIM, un nouveau benchmark conçu pour évaluer les capacités de résolution de problèmes logiques similaires à celles des humains chez les modèles vision-langage (VLMs) dans les jeux de réflexion de physique "pointer-cliquer". Il révèle une disparité significative entre le raisonnement et l'exécution chez les grands modèles propriétaires lors de la résolution du jeu The Incredible Machine 2.

27