RESEARCHarXiv CS.AI·23h atrás
OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
OmniMem é uma estrutura de streaming eficiente em memória para LLMs audiovisuais, projetada para superar as limitações da inferência de vídeo longo devido ao aumento de tokens e caches KV. Ele utiliza alocação de memória sensível à modalidade e seleção de memória ciente de perturbações para preservar estados KV informativos, melhorando a compressão e a compreensão de longo alcance.
46