RESEARCHarXiv CS.AI·hace 18d
AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
AttuneBench es un nuevo benchmark basado en 200 conversaciones genuinas multi-turno entre humanos y modelos para evaluar la inteligencia emocional de los LLM. Mide la capacidad de los modelos para inferir y responder a estados emocionales en conversaciones reales, mostrando que las clasificaciones de los modelos en reconocimiento de emociones y otras métricas son en gran medida independientes.
27