Memory Compression — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.AI·23h atrás

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem é uma estrutura de streaming eficiente em memória para LLMs audiovisuais, projetada para superar as limitações da inferência de vídeo longo devido ao aumento de tokens e caches KV. Ele utiliza alocação de memória sensível à modalidade e seleção de memória ciente de perturbações para preservar estados KV informativos, melhorando a compressão e a compreensão de longo alcance.

LLMs Audio-Visual AI deep learning Streaming