heapsort
RESEARCH28

Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems

arXiv CS.AI·27 de mayo de 2026

Los agentes de IA de larga duración se implementan como sistemas operativos, pero su evaluación ignora la cuestión de la fiabilidad a lo largo del tiempo. Este trabajo introduce AgingBench, un benchmark de fiabilidad longitudinal para la ingeniería de la vida útil de los agentes, que mide la degradación e identifica objetivos de reparación.

Leer original