failure detection — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 21T

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Dieses Papier stellt PQR vor, ein Framework zur Generierung vielfältiger und realistischer Benutzeranfragen, die Fehler in LLM-basierten QA-Agenten hervorrufen, und geht damit über bestehende Methoden hinaus, die sich hauptsächlich auf adversariale Benutzer konzentrieren. PQR arbeitet mit iterativen Abfrage- und Prompt-Verfeinerungsmodulen, um realistische Testszenarien zu erstellen, die die Schwachstellen von Agenten aufdecken.

LLMs QA agents failure detection query generation