notch
RESEARCH27

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

arXiv CS.CL·7 de abril de 2026

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMsCreative Problem SolvingbenchmarksCognitive AbilitiesReal-world AI
Ler original