Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations
CarryOnBench wird als erster interaktiver Benchmark eingeführt, um zu messen, wie LLMs in sicheren Multi-Turn-Gesprächen die Nützlichkeit wiederherstellen und die Interpretation der Benutzerabsicht anpassen. Er zeigt, dass aktuelle Modelle im ersten Zug nur 10,5-37,6% des gutartigen Informationsbedarfs der Benutzer erfüllen, was eine Lücke in der Nutzlichkeitswiederherstellung sicherheitsorientierter LLMs aufzeigt.