heapsort
RESEARCH28

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

arXiv CS.AI·27 de maio de 2026

Agentes de IA de longa duração são implantados como sistemas operacionais, mas sua avaliação ignora a questão da confiabilidade ao longo do tempo. Este trabalho introduz o AgingBench, um benchmark de confiabilidade longitudinal para engenharia de vida útil de agentes, medindo a degradação e identificando alvos de reparo.

Ler original