runtime safety

2 items

RESEARCHarXiv CS.AI·il y a 5j

The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents

Cet article étudie le problème du moment d'intervenir sur des agents d'IA autonomes, en utilisant un moteur de dynamique affective continu à 18 dimensions comme sonde diagnostique. Il révèle un « Piège de Saturation d'État » où les agents ne montrent aucun signe de récupération face à une difficulté soutenue, et un seuil de capacité pour les juges LLM, rendant le timing des interventions un défi complexe.

runtime safety intervention timing autonomous agents AI safety

RESEARCHarXiv CS.AI·il y a 21j

AgentWall: A Runtime Safety Layer for Local AI Agents

Cet article présente AgentWall, une couche de sécurité et d'observabilité en temps réel pour les agents IA locaux, résolvant le problème critique de leur sécurité. Il intercepte chaque action proposée par l'agent avant qu'elle n'atteigne l'environnement hôte, comblant ainsi une lacune non couverte par l'alignement de modèle ou le filtrage d'entrée traditionnels.

runtime safety security local environments AI agents