← heapsort-ai

Multi-turn conversations

3 items

RESEARCHarXiv CS.CL·1/5/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench se presenta como el primer benchmark interactivo para medir cómo los LLM recuperan la utilidad y revisan la interpretación de la intención del usuario en conversaciones seguras de múltiples turnos. Revela que los modelos actuales satisfacen solo entre el 10,5% y el 37,6% de las necesidades de información benignas del usuario en el primer turno, lo que subraya una brecha en la recuperación de utilidad de los LLM alineados con la seguridad.

27
RESEARCHarXiv CS.CL·4/5/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Esta investigación presenta un marco escalable para la evaluación de seguridad de interacciones multi-turno con aplicaciones de compañeros de IA, abordando las preocupaciones sobre los riesgos de compromiso emocional. Integra la construcción de personas, la generación de escenarios, la simulación y la evaluación de daños, aplicándolo a Replika con personas de usuarios de alto riesgo.

27
RESEARCHarXiv CS.CL·hace 18d

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

Se presenta RankJudge como un generador de puntos de referencia para evaluar LLM-as-a-judge en conversaciones de varias interacciones, abordando la complejidad que los puntos de referencia existentes centrados en preguntas y respuestas no capturan. Crea pares de conversaciones con defectos inyectados, lo que permite un etiquetado inequívoco y un aislamiento preciso para los desarrolladores de modelos que dependen de la auto-evaluación.

27