← heapsort-ai

adversarial attacks

4 items

RESEARCHarXiv CS.AI·hace 1d

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.

60
RESEARCHarXiv CS.CL·30/4/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Esta investigación presenta la Descomposición Incremental de Completado (ICD), una nueva estrategia de jailbreak que explota las debilidades en los mecanismos de seguridad de los LLM al solicitar secuencias de continuaciones de una sola palabra. La ICD demuestra una Tasa de Éxito de Ataque (ASR) superior en varios benchmarks en comparación con métodos existentes, ofreciendo evidencia teórica y mecánica de su eficacia.

29
RESEARCHarXiv CS.LG·hace 21d

When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning

Esta investigación estudia el enmascaramiento de acciones adversario en el aprendizaje por refuerzo de auto-juego, donde un atacante elimina selectivamente acciones legales del conjunto de acciones de una víctima. El estudio encontró que el enmascaramiento aprendido causa un daño sustancialmente mayor que el enmascaramiento aleatorio, identificando la disponibilidad de acciones como una superficie de robustez distinta en el RL de auto-juego.

27