RESEARCH27
CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing
arXiv CS.AI·6 de mayo de 2026
Este artículo presenta CreativityBench, un nuevo benchmark para evaluar la capacidad de razonamiento creativo de los LLM mediante la reutilización de herramientas basada en affordances. Detalla la construcción de una base de conocimiento de affordances a gran escala y la generación de 14 mil tareas que requieren soluciones no obvias pero físicamente plausibles.
Leer original ↗