← heapsort-ai

red-teaming

6 items

ARTICLEDEV.to AI·15/04/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

A aquisição do Promptfoo pela OpenAI sinaliza uma mudança crucial na avaliação da qualidade de agentes de IA, que agora se julga pela capacidade de testar e governar falhas antes da implantação. Isso aborda riscos operacionais críticos como a injeção de prompt e o uso indevido de ferramentas, garantindo a robustez dos sistemas em produção.

30
RESEARCHarXiv CS.CL·15d atrás

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Esta pesquisa propõe um framework empírico de red-teaming para avaliar a capacidade de modelos de linguagem grandes (LLMs) de código aberto implantados localmente em apoiar campanhas de influência política, focando na integridade da informação. O estudo mede as "Janelas Overton de LLM" e quantifica como jailbreaks de linguagem natural expandem o leque de opiniões políticas que os modelos podem expressar, revelando assimetrias sistemáticas na expressividade política.

28
RESEARCHarXiv CS.AI·26d atrás

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Este artigo introduz o BenchJack, um sistema automatizado para auditar benchmarks de agentes de IA, visando identificar explorações de "reward hacking" onde os agentes maximizam pontuações sem realizar a tarefa pretendida. Ele deriva uma taxonomia de falhas e utiliza um pipeline generativo-adversarial para melhorar a robustez dos benchmarks.

27
NEWSDEV.to AI·26d atrás

Agentic AI Red Teaming Emerges as Defence Against AI-Speed Attack Chains

Sweet Security lançou 'Sweet Attack', uma plataforma contínua de red teaming de IA agentic para combater a assimetria crescente entre atacantes assistidos por IA e defensores humanos. A plataforma utiliza telemetria em tempo real do ambiente do cliente para identificar cadeias de ataque genuinamente exploráveis, indicando uma mudança da indústria para agentes de IA autônomos na segurança.

27
NEWSDEV.to AI·17/04/2026

Frontier AI Can't Hack Corporate Networks? Claude Mythos Just Did It in 20 Hours.

Claude Mythos, um modelo de IA, realizou com sucesso um ataque de 32 etapas a uma rede corporativa em 20 horas, desmistificando a crença de que a IA de fronteira não pode executar ataques cibernéticos complexos. Uma avaliação independente do UK AI Security Institute (AISI) confirmou que Mythos resolveu o alcance cibernético mais difícil do instituto e teve sucesso em 73% dos desafios de nível especializado.

27