RESEARCHarXiv CS.AI·vor 20Std
OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
OmniMem ist ein speichereffizientes Streaming-Framework für audiovisuelle LLMs, das entwickelt wurde, um die Einschränkungen der Langvideo-Inferenz aufgrund zunehmender Videotoken und KV-Caches zu überwinden. Es verwendet eine modalitätsbewusste Speicherzuweisung und eine störungsbewusste Speicherauswahl, um informative KV-Zustände zu erhalten, wodurch Komprimierung und Weitbereichsverständnis verbessert werden.
54