RESEARCH28
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
arXiv CS.AI·27 de mayo de 2026
Los agentes de IA de larga duración se implementan como sistemas operativos, pero su evaluación ignora la cuestión de la fiabilidad a lo largo del tiempo. Este trabajo introduce AgingBench, un benchmark de fiabilidad longitudinal para la ingeniería de la vida útil de los agentes, que mide la degradación e identifica objetivos de reparación.
Leer original ↗