adversarial attacks

4 items

RESEARCHarXiv CS.AI·hace 1d

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.

security AI control Agentic AI adversarial attacks

RESEARCHarXiv CS.CL·30/4/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Esta investigación presenta la Descomposición Incremental de Completado (ICD), una nueva estrategia de jailbreak que explota las debilidades en los mecanismos de seguridad de los LLM al solicitar secuencias de continuaciones de una sola palabra. La ICD demuestra una Tasa de Éxito de Ataque (ASR) superior en varios benchmarks en comparación con métodos existentes, ofreciendo evidencia teórica y mecánica de su eficacia.

LLMs jailbreaking security adversarial attacks

RESEARCHarXiv CS.LG·hace 6d

Making Brain-Computer Interfaces More Secure

Este estudio propone una arquitectura personalizada de Red Neuronal Convolucional (CNN) para investigar la robustez adversaria en interfaces cerebro-computadora (BCI) basadas en EEG. El método se evalúa con dos conjuntos de datos de EEG y se compara con otros modelos CNN bajo escenarios de ataque adversario para garantizar un despliegue confiable de los BCI.

neural networks brain-computer interfaces security machine learning

RESEARCHarXiv CS.LG·hace 21d

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Esta investigación estudia el enmascaramiento de acciones adversario en el aprendizaje por refuerzo de auto-juego, donde un atacante elimina selectivamente acciones legales del conjunto de acciones de una víctima. El estudio encontró que el enmascaramiento aprendido causa un daño sustancialmente mayor que el enmascaramiento aleatorio, identificando la disponibilidad de acciones como una superficie de robustez distinta en el RL de auto-juego.

reinforcement learning security self-play adversarial attacks