RESEARCH27

TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models

arXiv CS.CL·2. Juni 2026

Die schnelle Entwicklung von Language Diffusion Models (LDMs) bringt neue Herausforderungen hinsichtlich ihrer Vertrauenswürdigkeit mit sich. TrustLDM ist ein umfassender Benchmark zur Bewertung von Sicherheit, Datenschutz und Fairness in LDMs, der zeigt, dass ihr Ausrichtungsverhalten bei bösartigen Kontexten, unabhängig von der Kontextlänge, merklich abnimmt.

Safety trustworthiness privacy security Fairness

Original lesen ↗