RESEARCHarXiv CS.CL·1/5/2026
CL-bench Life: Can Language Models Learn from Real-Life Context?
CL-bench Life es un nuevo benchmark curado por humanos, diseñado para evaluar si los modelos de lenguaje de vanguardia pueden aprender eficazmente de contextos complejos y desordenados de la vida real. Consta de 405 pares de contexto-tarea para probar la capacidad de los modelos para razonar sobre experiencias personales y sociales.
27