heapsort
RESEARCH27

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

arXiv CS.AI·6 de mayo de 2026

Este artículo presenta CreativityBench, un nuevo benchmark para evaluar la capacidad de razonamiento creativo de los LLM mediante la reutilización de herramientas basada en affordances. Detalla la construcción de una base de conocimiento de affordances a gran escala y la generación de 14 mil tareas que requieren soluciones no obvias pero físicamente plausibles.

Leer original