RESEARCH27

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

arXiv CS.CL·2 juin 2026

Le développement rapide des Modèles de Diffusion de Langage (LDMs) introduit de nouveaux défis de fiabilité. TrustLDM est un benchmark complet évaluant la sécurité, la confidentialité et l'équité dans les LDMs, révélant que leur comportement d'alignement se dégrade sensiblement avec des contextes malveillants, quelle que soit la longueur du contexte.

Safety trustworthiness privacy security Fairness

Lire l'original ↗