ARTICLE24

We Hit 99.1% on the LOCOMO Benchmark. Here's How.

DEV.to AI·12 de abril de 2026

O texto descreve como uma equipe alcançou 99,1% de precisão no benchmark LOCOMO, que avalia a capacidade de agentes de IA em realizar raciocínio multi-hop usando memórias armazenadas. Esse avanço significativo, superando outros sistemas, foi atribuído à remoção de uma única premissa, e não a um novo modelo complexo.

memory systemsbenchmarkingReasoningAIAI agents

Ler original ↗