← heapsort-ai

Safety Alignment

2 items

RESEARCHarXiv CS.CL·4/13/2026

Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

Diese Arbeit enthüllt eine kritische Schwachstelle in diffusionsbasierten Sprachmodellen (dLLMs), deren Sicherheitsausrichtung, basierend auf monotonen Entrauschungsplänen, leicht umgangen werden kann. Durch das Neumaskieren von Ablehnungs-Tokens und das Injizieren eines bejahenden Präfixes erzielten Forscher hohe Angriffserfolgsraten gegen prominente dLLMs und legten damit einen strukturellen Fehler offen.

29
RESEARCHarXiv CS.CL·4/6/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27