RESEARCHarXiv CS.CL·01/05/2026
CL-bench Life: Can Language Models Learn from Real-Life Context?
CL-bench Life é um novo benchmark curado por humanos, projetado para avaliar se os modelos de linguagem de ponta podem aprender eficazmente em contextos complexos e desordenados da vida real. Abrange 405 pares de contexto-tarefa para testar a capacidade dos modelos de raciocinar sobre experiências pessoais e sociais.
27