RESEARCHarXiv CS.CL·7/4/2026
CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge
CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.
27