RESEARCHarXiv CS.AI·13d atrás
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
Agentes de IA de longa duração são implantados como sistemas operacionais, mas sua avaliação ignora a questão da confiabilidade ao longo do tempo. Este trabalho introduz o AgingBench, um benchmark de confiabilidade longitudinal para engenharia de vida útil de agentes, medindo a degradação e identificando alvos de reparo.
28