runtime safety

2 items

RESEARCHarXiv CS.AI·hace 5d

The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents

Este artículo explora el problema de cuándo intervenir en agentes de IA autónomos, utilizando un motor de dinámica afectiva de 18 dimensiones para evaluar los desencadenantes de intervención. Se identifica una 'Trampa de Saturación de Estado' donde los agentes no muestran señal de recuperación bajo dificultad sostenida, y un límite de capacidad para los jueces basados en LLM, lo que dificulta la sincronización de las intervenciones.

runtime safety intervention timing autonomous agents AI safety

RESEARCHarXiv CS.AI·hace 21d

AgentWall: A Runtime Safety Layer for Local AI Agents

Este artículo introduce AgentWall, una capa de seguridad y observabilidad en tiempo de ejecución para agentes de IA locales, que aborda el problema crítico de garantizar su seguridad. Intercepta las acciones propuestas por el agente antes de que se ejecuten en el entorno del host, cubriendo una brecha no tratada por los enfoques tradicionales de alineación de modelos o filtrado de entrada.

runtime safety security local environments AI agents