RESEARCH27

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

arXiv CS.CL·17 de abril de 2026

MemGround é um novo e rigoroso benchmark para a memória de longo prazo de LLMs, projetado para superar as limitações das avaliações estáticas por meio de cenários interativos gamificados. Ele utiliza uma estrutura hierárquica de três níveis para avaliar diferentes tipos de memória e um conjunto de métricas multidimensionais para quantificação abrangente.

evaluation gamification memory benchmark LLM

Ler original ↗