RESEARCHarXiv CS.AI·17d atrás
AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
AttuneBench é um novo benchmark baseado em 200 conversas genuínas multi-turnos entre humanos e modelos para avaliar a inteligência emocional de LLMs. Ele mede a capacidade dos modelos de inferir e responder a estados emocionais em conversas reais, revelando que as classificações de modelos em reconhecimento de emoções e outras métricas são amplamente independentes.
27