ARTICLE24
We Hit 99.1% on the LOCOMO Benchmark. Here's How.
DEV.to AI·12. April 2026
Ein Team erreichte 99,1 % auf dem LOCOMO-Benchmark, der die Multi-Hop-Argumentation von KI-Agenten mit gespeicherten Erinnerungen bewertet. Dieser Durchbruch wurde dem Entfernen einer einzelnen Prämisse zugeschrieben, anstatt ein komplexes neues Modell zu entwickeln.
Original lesen ↗