RESEARCH46

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

arXiv CS.AI·9 juin 2026

OmniMem est un cadre de streaming économe en mémoire pour les LLM audio-visuels, conçu pour surmonter les limitations de l'inférence vidéo longue dues à l'augmentation des jetons vidéo et des caches KV. Il utilise une allocation de mémoire sensible à la modalité et une sélection de mémoire consciente des perturbations pour préserver les états KV informatifs, améliorant la compression et la compréhension à longue portée.

LLMs Audio-Visual AI deep learning Streaming Memory Compression

Lire l'original ↗