RESEARCH27

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

arXiv CS.CL·17 avril 2026

MemGround est un nouveau benchmark rigoureux pour la mémoire à long terme des LLM, conçu pour surmonter les limitations des évaluations statiques grâce à des scénarios interactifs gamifiés. Il propose un cadre hiérarchique à trois niveaux pour évaluer différents types de mémoire et une suite de métriques multidimensionnelles pour une quantification complète.

evaluation gamification memory benchmark LLM

Lire l'original ↗