RESEARCHarXiv CS.CL·8d atrás
Your Multimodal Speech Model Says I Have a Face for Radio
Este artigo propõe a primeira avaliação de viés para o reconhecimento de fala multimodal, revelando diferenças significativas na qualidade do serviço em modelos como mWhisper-Flamingo e Gemini, baseadas em gênero e etnia autodeclarados. Os resultados apontam para a prioridade dos desenvolvedores em avaliar, corrigir e comunicar esses vieses.
27