RESEARCH27

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv CS.CL·1. Juni 2026

Dieser Artikel schlägt die erste Bias-Evaluierung für multimodale Spracherkennung vor, die erhebliche Qualitätsunterschiede bei mWhisper-Flamingo- und Gemini-Modellen basierend auf selbst angegebenem Geschlecht und Ethnizität aufzeigt. Die Ergebnisse weisen darauf hin, dass Entwickler der Bewertung, Behebung und Kommunikation dieser Verzerrungen Priorität einräumen müssen.

multimodal AI AI bias ethnicity bias gender bias Speech Recognition

Original lesen ↗