Exploitation

2 items

RESEARCHarXiv CS.CL·13/4/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

El artículo revela una vulnerabilidad crítica en los modelos de lenguaje basados en difusión (dLLMs) donde su alineación de seguridad, basada en programas de denoising monotónicos, puede ser fácilmente eludida. Al volver a enmascarar tokens de rechazo e inyectar un prefijo afirmativo, los investigadores lograron altas tasas de éxito de ataque contra dLLMs destacados, exponiendo una falla estructural.

Diffusion Models language models vulnerability Exploitation

DOCDEV.to AI·17/4/2026

Explaining Prompt Injection & Image Injection & How to counter them

Este contenido explica qué son la inyección de prompt e imagen, identificándolas como explotaciones maliciosas en la IA. Detalla varias contramedidas, como tratar la entrada del usuario como hostil y utilizar modelos para interpretar el contenido de imágenes con intenciones maliciosas.

Image Injection Exploitation prompt injection Mitigation