RESEARCH27
Your Multimodal Speech Model Says I Have a Face for Radio
arXiv CS.CL·1 de junio de 2026
Este artículo propone la primera evaluación de sesgos en el reconocimiento de voz multimodal, revelando diferencias sustanciales en la calidad del servicio en modelos como mWhisper-Flamingo y Gemini, basadas en el género y la etnia autodeclarados. Los hallazgos señalan la prioridad de los desarrolladores para evaluar, corregir y comunicar estos sesgos.
Leer original ↗