heapsort
RESEARCH27

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

arXiv CS.AI·23 mai 2026

AttuneBench est un nouveau benchmark basé sur 200 conversations réelles multi-tours entre humains et modèles pour évaluer l'intelligence émotionnelle des LLM. Il mesure la capacité des modèles à inférer et répondre aux états émotionnels au cours de conversations réelles, révélant que les classements des modèles en reconnaissance émotionnelle et autres métriques sont largement indépendants.

Lire l'original