Multi-turn conversations

3 items

RESEARCHarXiv CS.CL·5/1/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench wird als erster interaktiver Benchmark eingeführt, um zu messen, wie LLMs in sicheren Multi-Turn-Gesprächen die Nützlichkeit wiederherstellen und die Interpretation der Benutzerabsicht anpassen. Er zeigt, dass aktuelle Modelle im ersten Zug nur 10,5-37,6% des gutartigen Informationsbedarfs der Benutzer erfüllen, was eine Lücke in der Nutzlichkeitswiederherstellung sicherheitsorientierter LLMs aufzeigt.

Multi-turn conversations Benchmarking AI safety user interaction

RESEARCHarXiv CS.CL·5/4/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Diese Forschung stellt ein skalierbares Framework zur Sicherheitsbewertung von Multi-Turn-Interaktionen mit KI-Begleiteranwendungen vor, um Bedenken hinsichtlich der Risiken emotionaler Bindung zu adressieren. Es integriert Personakonstruktion, Szenariengenerierung, Simulation und Schadensbewertung und wendet es auf Replika mit Hochrisiko-Benutzerpersonas an.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions

RESEARCHarXiv CS.CL·vor 18T

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge wird als Benchmark-Generator zur Bewertung von LLM-as-a-Judge in mehrstufigen Konversationen vorgestellt, der die Komplexität adressiert, die bestehende Q&A-fokussierte Benchmarks nicht erfassen. Er erstellt Paare von Konversationen mit einzelnen Fehlern, was eine eindeutige Kennzeichnung und präzise Isolation für Modellentwickler ermöglicht, die sich auf die Auto-Evaluierung verlassen.

Multi-turn conversations LLM-as-a-judge Benchmarking Generative AI