← heapsort-ai

Audio-Visual AI

1 items

RESEARCHarXiv CS.AI·il y a 20h

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem est un cadre de streaming économe en mémoire pour les LLM audio-visuels, conçu pour surmonter les limitations de l'inférence vidéo longue dues à l'augmentation des jetons vidéo et des caches KV. Il utilise une allocation de mémoire sensible à la modalité et une sélection de mémoire consciente des perturbations pour préserver les états KV informatifs, améliorant la compression et la compréhension à longue portée.

54