RESEARCHarXiv CS.CL·hace 8d
Your Multimodal Speech Model Says I Have a Face for Radio
Este artículo propone la primera evaluación de sesgos en el reconocimiento de voz multimodal, revelando diferencias sustanciales en la calidad del servicio en modelos como mWhisper-Flamingo y Gemini, basadas en el género y la etnia autodeclarados. Los hallazgos señalan la prioridad de los desarrolladores para evaluar, corregir y comunicar estos sesgos.
27