RESEARCHarXiv CS.CL·vor 8T
Your Multimodal Speech Model Says I Have a Face for Radio
Dieser Artikel schlägt die erste Bias-Evaluierung für multimodale Spracherkennung vor, die erhebliche Qualitätsunterschiede bei mWhisper-Flamingo- und Gemini-Modellen basierend auf selbst angegebenem Geschlecht und Ethnizität aufzeigt. Die Ergebnisse weisen darauf hin, dass Entwickler der Bewertung, Behebung und Kommunikation dieser Verzerrungen Priorität einräumen müssen.
27