RESEARCH27
MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes
arXiv CS.CL·11. Mai 2026
Dieses Paper stellt MIST vor, einen synthetischen Datensatz zur sprachgesteuerten Code-Generierung für IoT-Geräte in mehrstufigen Dialogen. Die Autoren stellen eine erhebliche Leistungslücke zwischen offenen und geschlossenen multimodalen LLMs bei MIST fest, was auf deutlichen Verbesserungsbedarf hinweist.
Original lesen ↗