RESEARCHarXiv CS.AI·il y a 14j
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
Les agents d'IA à longue durée de vie sont déployés comme systèmes opérationnels, mais leur évaluation ne tient pas compte de la fiabilité à long terme. Cet article introduit AgingBench, un benchmark de fiabilité longitudinale pour l'ingénierie de la durée de vie des agents, mesurant la dégradation et identifiant les cibles de réparation.
28