RESEARCH27

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

arXiv CS.CL·2 de junio de 2026

El rápido desarrollo de los Modelos de Difusión de Lenguaje (LDM) presenta nuevos desafíos de fiabilidad. TrustLDM es un benchmark exhaustivo que evalúa la seguridad, privacidad y equidad en estos modelos, mostrando que su comportamiento de alineación se degrada notablemente con contextos maliciosos, independientemente de la longitud del contexto.

Safety trustworthiness privacy security Fairness

Leer original ↗