Multi-turn conversations

3 items

RESEARCHarXiv CS.CL·01/05/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench é apresentado como o primeiro benchmark interativo para medir como LLMs recuperam a utilidade e revisam a interpretação da intenção do usuário em conversas seguras e multi-turno. Ele revela que os modelos atuais atendem apenas 10,5-37,6% das necessidades de informação benignas dos usuários na primeira rodada, destacando uma lacuna na recuperação de utilidade de LLMs alinhados à segurança.

Multi-turn conversations Benchmarking AI safety user interaction

RESEARCHarXiv CS.CL·04/05/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Esta pesquisa apresenta uma estrutura escalável para avaliação de segurança de interações multi-turn com aplicativos de companheiros de IA, abordando preocupações sobre os riscos de engajamento emocional. O framework integra construção de persona, geração de cenário, simulação e avaliação de danos, aplicando-o ao Replika com personas de usuários de alto risco.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions

RESEARCHarXiv CS.CL·18d atrás

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge é introduzido como um gerador de benchmark para avaliar LLM-as-a-judge em conversas multi-turno, abordando a complexidade que os benchmarks existentes focados em Q&A não capturam. Ele cria pares de conversas com falhas injetadas, permitindo rotulagem clara e isolamento preciso de problemas para desenvolvedores de modelos que utilizam autoavaliação.

Multi-turn conversations LLM-as-a-judge Benchmarking generative AI