RESEARCH27
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
arXiv CS.AI·6 de maio de 2026
Este artigo introduz o CreativityBench, um novo benchmark para avaliar a capacidade de raciocínio criativo de LLMs através da reutilização de ferramentas baseada em affordances. Ele detalha a construção de uma base de conhecimento de affordances em larga escala e a geração de 14 mil tarefas que exigem soluções fisicamente plausíveis e não óbvias.
Ler original ↗