RESEARCH27

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

arXiv CS.CL·17 de abril de 2026

MemGround es un nuevo y riguroso benchmark para la memoria a largo plazo de los LLM, diseñado para superar las limitaciones de las evaluaciones estáticas mediante escenarios interactivos gamificados. Presenta un marco jerárquico de tres niveles para evaluar diferentes tipos de memoria y un conjunto de métricas multidimensionales para una cuantificación exhaustiva.

evaluation gamification memory benchmark LLM

Leer original ↗