Multi-turn conversations

3 items

RESEARCHarXiv CS.CL·01/05/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench est introduit comme le premier benchmark interactif pour mesurer la capacité des LLM à retrouver leur utilité et à réviser l'interprétation de l'intention de l'utilisateur dans des conversations multi-tours sécurisées. Il révèle que les modèles actuels ne répondent qu'à 10,5-37,6% des besoins d'information bénins des utilisateurs au premier tour, soulignant une lacune dans la récupération d'utilité des LLM alignés sur la sécurité.

Multi-turn conversations Benchmarking AI safety user interaction

RESEARCHarXiv CS.CL·04/05/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Cette recherche introduit un cadre évolutif pour l'évaluation de la sécurité des interactions multi-tours avec les applications de compagnons IA, répondant aux préoccupations concernant les risques d'engagement émotionnel. Il intègre la construction de persona, la génération de scénarios, la simulation et l'évaluation des dommages, l'appliquant à Replika avec des personas d'utilisateurs à haut risque.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions

RESEARCHarXiv CS.CL·il y a 18j

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est présenté comme un générateur de benchmark pour évaluer les LLM-as-a-judge dans les conversations multi-tours, abordant la complexité que les benchmarks existants axés sur les questions-réponses ne parviennent pas à saisir. Il crée des paires de conversations avec des défauts injectés, permettant un étiquetage sans ambiguïté et une isolation précise pour les développeurs de modèles s'appuyant sur l'auto-évaluation.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI