Audio-Visual AI — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 20Std

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem ist ein speichereffizientes Streaming-Framework für audiovisuelle LLMs, das entwickelt wurde, um die Einschränkungen der Langvideo-Inferenz aufgrund zunehmender Videotoken und KV-Caches zu überwinden. Es verwendet eine modalitätsbewusste Speicherzuweisung und eine störungsbewusste Speicherauswahl, um informative KV-Zustände zu erhalten, wodurch Komprimierung und Weitbereichsverständnis verbessert werden.

LLMs Audio-Visual AI deep learning Streaming