heapsort
RESEARCH27

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv CS.CL·1. Juni 2026

Dieser Artikel schlägt die erste Bias-Evaluierung für multimodale Spracherkennung vor, die erhebliche Qualitätsunterschiede bei mWhisper-Flamingo- und Gemini-Modellen basierend auf selbst angegebenem Geschlecht und Ethnizität aufzeigt. Die Ergebnisse weisen darauf hin, dass Entwickler der Bewertung, Behebung und Kommunikation dieser Verzerrungen Priorität einräumen müssen.

Original lesen