Exploitation

2 items

RESEARCHarXiv CS.CL·13/04/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

O artigo revela uma vulnerabilidade crítica em modelos de linguagem baseados em difusão (dLLMs), onde seu alinhamento de segurança, dependente de agendamentos de denoising monotônicos, pode ser facilmente contornado. Ao re-mascarar tokens de recusa e injetar um prefixo afirmativo, pesquisadores obtiveram altas taxas de sucesso de ataque contra dLLMs proeminentes, expondo uma falha estrutural.

Diffusion Models language models vulnerability Exploitation

DOCDEV.to AI·17/04/2026

Explaining Prompt Injection & Image Injection & How to counter them

Este conteúdo explica as injeções de prompt e imagem como explorações maliciosas na IA. Apresenta estratégias para contramedidas, como tratar entradas do usuário como hostis e utilizar modelos para identificar intenções maliciosas em imagens.

Image Injection Exploitation prompt injection Mitigation