Safety Alignment

2 items

RESEARCHarXiv CS.CL·13/04/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Cet article révèle une vulnérabilité critique dans les modèles de langage basés sur la diffusion (dLLMs) où leur alignement de sécurité, reposant sur des calendriers de débruitage monotones, peut être facilement contourné. En masquant à nouveau les jetons de refus et en injectant un préfixe affirmatif, les chercheurs ont obtenu des taux de réussite d'attaque élevés contre des dLLMs proéminents, exposant une faille structurelle.

Diffusion Models language models vulnerability Exploitation

RESEARCHarXiv CS.CL·06/04/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

linguistic bias stereotyping LLM bias task-dependent bias