RESEARCHarXiv CS.AI·hace 13d
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
Los agentes de IA de larga duración se implementan como sistemas operativos, pero su evaluación ignora la cuestión de la fiabilidad a lo largo del tiempo. Este trabajo introduce AgingBench, un benchmark de fiabilidad longitudinal para la ingeniería de la vida útil de los agentes, que mide la degradación e identifica objetivos de reparación.
28