Multi-turn conversations

3 items

RESEARCHarXiv CS.CL·1/5/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench se presenta como el primer benchmark interactivo para medir cómo los LLM recuperan la utilidad y revisan la interpretación de la intención del usuario en conversaciones seguras de múltiples turnos. Revela que los modelos actuales satisfacen solo entre el 10,5% y el 37,6% de las necesidades de información benignas del usuario en el primer turno, lo que subraya una brecha en la recuperación de utilidad de los LLM alineados con la seguridad.

Multi-turn conversations Benchmarking AI safety user interaction

RESEARCHarXiv CS.CL·4/5/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Esta investigación presenta un marco escalable para la evaluación de seguridad de interacciones multi-turno con aplicaciones de compañeros de IA, abordando las preocupaciones sobre los riesgos de compromiso emocional. Integra la construcción de personas, la generación de escenarios, la simulación y la evaluación de daños, aplicándolo a Replika con personas de usuarios de alto riesgo.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions

RESEARCHarXiv CS.CL·hace 18d

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

Se presenta RankJudge como un generador de puntos de referencia para evaluar LLM-as-a-judge en conversaciones de varias interacciones, abordando la complejidad que los puntos de referencia existentes centrados en preguntas y respuestas no capturan. Crea pares de conversaciones con defectos inyectados, lo que permite un etiquetado inequívoco y un aislamiento preciso para los desarrolladores de modelos que dependen de la auto-evaluación.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI