RESEARCHarXiv CS.CL·hace 29d
IntentGrasp: A Comprehensive Benchmark for Intent Understanding
IntentGrasp es un nuevo benchmark integral para evaluar la capacidad de comprensión de intenciones de los LLM, derivado de 49 corpus de alta calidad. Evaluaciones extensivas en 20 LLM demostraron un rendimiento insatisfactorio, con puntuaciones inferiores al 60% en el All Set y al 25% en el Gem Set.
27