RESEARCH27
TrustLDM: Benchmarking Trustworthiness in Language Diffusion Models
arXiv CS.CL·2. Juni 2026
Die schnelle Entwicklung von Language Diffusion Models (LDMs) bringt neue Herausforderungen hinsichtlich ihrer Vertrauenswürdigkeit mit sich. TrustLDM ist ein umfassender Benchmark zur Bewertung von Sicherheit, Datenschutz und Fairness in LDMs, der zeigt, dass ihr Ausrichtungsverhalten bei bösartigen Kontexten, unabhängig von der Kontextlänge, merklich abnimmt.
Original lesen ↗