runtime safety

2 items

RESEARCHarXiv CS.AI·5d atrás

The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents

Este artigo explora o problema de quando interromper agentes de IA autônomos, utilizando um motor de dinâmica afetiva para avaliar gatilhos de intervenção. Os autores identificam uma 'Armadilha de Saturação de Estado', onde a frustração modelada dos agentes permanece no máximo sob dificuldade sustentada, e um limite de capacidade para julgadores baseados em LLMs, tornando a temporização das intervenções um desafio complexo.

runtime safety intervention timing autonomous agents AI safety

RESEARCHarXiv CS.AI·21d atrás

AgentWall: A Runtime Safety Layer for Local AI Agents

Este artigo apresenta o AgentWall, uma camada de segurança e observabilidade em tempo de execução para agentes de IA locais, abordando o problema crítico de garantir sua segurança. Ele intercepta ações propostas pelo agente antes que sejam executadas no ambiente do host, preenchendo uma lacuna não coberta por abordagens tradicionais de alinhamento de modelo ou filtragem de entrada.

runtime safety security local environments AI agents