RESEARCHarXiv CS.AI·il y a 20h
OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
OmniMem est un cadre de streaming économe en mémoire pour les LLM audio-visuels, conçu pour surmonter les limitations de l'inférence vidéo longue dues à l'augmentation des jetons vidéo et des caches KV. Il utilise une allocation de mémoire sensible à la modalité et une sélection de mémoire consciente des perturbations pour préserver les états KV informatifs, améliorant la compression et la compréhension à longue portée.
54