RESEARCH27
MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios
arXiv CS.CL·17 de abril de 2026
MemGround es un nuevo y riguroso benchmark para la memoria a largo plazo de los LLM, diseñado para superar las limitaciones de las evaluaciones estáticas mediante escenarios interactivos gamificados. Presenta un marco jerárquico de tres niveles para evaluar diferentes tipos de memoria y un conjunto de métricas multidimensionales para una cuantificación exhaustiva.
Leer original ↗