RESEARCH27

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv CS.CL·1 juin 2026

Cet article propose la première évaluation des biais dans la reconnaissance vocale multimodale, mettant en évidence des différences significatives de qualité de service entre les modèles mWhisper-Flamingo et Gemini, basées sur le genre et l'ethnie autodéclarés. Ces résultats soulignent la nécessité pour les développeurs d'évaluer, de corriger et de communiquer ces biais.

multimodal AI AI bias ethnicity bias gender bias Speech Recognition

Lire l'original ↗