RESEARCH27

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv CS.CL·1 de junho de 2026

Este artigo propõe a primeira avaliação de viés para o reconhecimento de fala multimodal, revelando diferenças significativas na qualidade do serviço em modelos como mWhisper-Flamingo e Gemini, baseadas em gênero e etnia autodeclarados. Os resultados apontam para a prioridade dos desenvolvedores em avaliar, corrigir e comunicar esses vieses.

multimodal AI AI bias ethnicity bias gender bias Speech Recognition

Ler original ↗