RESEARCH27

Your Multimodal Speech Model Says I Have a Face for Radio

arXiv CS.CL·1 de junio de 2026

Este artículo propone la primera evaluación de sesgos en el reconocimiento de voz multimodal, revelando diferencias sustanciales en la calidad del servicio en modelos como mWhisper-Flamingo y Gemini, basadas en el género y la etnia autodeclarados. Los hallazgos señalan la prioridad de los desarrolladores para evaluar, corregir y comunicar estos sesgos.

multimodal AI AI bias ethnicity bias gender bias Speech Recognition

Leer original ↗