RESEARCHarXiv CS.CL·il y a 29j
MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
Cet article présente MIST, un ensemble de données synthétique de génération de code multi-tours et piloté par la voix pour les appareils IoT. Les auteurs constatent un écart de performance significatif entre les LLM multimodaux à poids ouverts et fermés sur MIST, ce qui indique une marge d'amélioration substantielle.
27