RESEARCH27
Your Multimodal Speech Model Says I Have a Face for Radio
arXiv CS.CL·1 juin 2026
Cet article propose la première évaluation des biais dans la reconnaissance vocale multimodale, mettant en évidence des différences significatives de qualité de service entre les modèles mWhisper-Flamingo et Gemini, basées sur le genre et l'ethnie autodéclarés. Ces résultats soulignent la nécessité pour les développeurs d'évaluer, de corriger et de communiquer ces biais.
Lire l'original ↗