heapsort
RESEARCH27

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

arXiv CS.AI·6 mai 2026

Cet article introduit CreativityBench, un nouveau benchmark pour évaluer la capacité de raisonnement créatif des LLM via la réaffectation d'outils basée sur les affordances. Il détaille la construction d'une base de connaissances d'affordances à grande échelle et la génération de 14 000 tâches nécessitant des solutions non évidentes mais physiquement plausibles.

Lire l'original