← heapsort-ai

failure detection

1 items

RESEARCHarXiv CS.CL·hace 21d

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Este artículo presenta PQR, un marco para generar consultas de usuario diversas y realistas que provocan fallos en agentes de QA basados en LLM, superando los métodos existentes que se centran en usuarios adversarios. PQR opera a través de módulos de refinamiento de consultas y prompts que iteran para crear escenarios de prueba realistas que exponen las vulnerabilidades de los agentes.

28