Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations
CarryOnBench é apresentado como o primeiro benchmark interativo para medir como LLMs recuperam a utilidade e revisam a interpretação da intenção do usuário em conversas seguras e multi-turno. Ele revela que os modelos atuais atendem apenas 10,5-37,6% das necessidades de informação benignas dos usuários na primeira rodada, destacando uma lacuna na recuperação de utilidade de LLMs alinhados à segurança.