heapsort
RESEARCH27

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

arXiv CS.AI·23 de mayo de 2026

AttuneBench es un nuevo benchmark basado en 200 conversaciones genuinas multi-turno entre humanos y modelos para evaluar la inteligencia emocional de los LLM. Mide la capacidad de los modelos para inferir y responder a estados emocionales en conversaciones reales, mostrando que las clasificaciones de los modelos en reconocimiento de emociones y otras métricas son en gran medida independientes.

Leer original