RESEARCHarXiv CS.CL·5/11/2026
MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
Dieses Paper stellt MIST vor, einen synthetischen Datensatz zur sprachgesteuerten Code-Generierung für IoT-Geräte in mehrstufigen Dialogen. Die Autoren stellen eine erhebliche Leistungslücke zwischen offenen und geschlossenen multimodalen LLMs bei MIST fest, was auf deutlichen Verbesserungsbedarf hinweist.
27