← heapsort-ai

red-teaming

6 items

ARTICLEDEV.to AI·15/4/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

La adquisición de Promptfoo por OpenAI indica un cambio crucial en la evaluación de la calidad de los agentes de IA, juzgada ahora por la capacidad de probar y gobernar fallos antes del despliegue. Esto aborda riesgos operativos críticos como la inyección de prompts y el uso indebido de herramientas, asegurando la robustez de los sistemas en producción.

30
RESEARCHarXiv CS.CL·hace 15d

How Far Will They Go? Red-Teaming Online Influence with Large Language Models

Esta investigación propone un marco empírico de "red-teaming" para evaluar la capacidad de los grandes modelos de lenguaje (LLMs) de código abierto implementados localmente para apoyar campañas de influencia política, centrándose en la integridad de la información. Mide las "Ventanas Overton de LLM" y cuantifica cómo los jailbreaks en lenguaje natural amplían el rango de opiniones políticas que los modelos pueden expresar, revelando asimetrías sistemáticas en la expresividad política.

28
RESEARCHarXiv CS.AI·hace 26d

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Este artículo presenta BenchJack, un sistema automatizado para auditar benchmarks de agentes de IA, con el fin de identificar la "manipulación de recompensas" donde los agentes maximizan las puntuaciones sin realizar la tarea. Deriva una taxonomía de patrones de fallas y utiliza un pipeline generativo-adversarial para mejorar la robustez de los benchmarks.

27
NEWSDEV.to AI·hace 25d

Agentic AI Red Teaming Emerges as Defence Against AI-Speed Attack Chains

Sweet Security ha lanzado 'Sweet Attack', una plataforma continua de red teaming de IA agéntica para contrarrestar la creciente asimetría entre atacantes asistidos por IA y defensores humanos. La plataforma utiliza telemetría en tiempo real del entorno del cliente para identificar cadenas de ataque explotables, indicando un cambio industrial hacia agentes de IA autónomos en seguridad.

27
NEWSDEV.to AI·17/4/2026

Frontier AI Can't Hack Corporate Networks? Claude Mythos Just Did It in 20 Hours.

Claude Mythos, un modelo de IA, completó con éxito un ataque de 32 pasos a una red corporativa en 20 horas, desmintiendo el mito de que la IA de frontera no puede ejecutar ciberataques de múltiples etapas. Una evaluación independiente del UK AI Security Institute (AISI) confirmó que Mythos resolvió su rango cibernético más difícil y tuvo éxito en el 73% de los desafíos de nivel experto.

27