AI benchmark

2 items

NEWS↑ trendingReddit r/LocalLLaMA·4/12/2026

GLM 5.1 sits alongside frontier models in my social reasoning benchmark

GLM 5.1 erweist sich in sozialem Denken als äußerst konkurrenzfähig gegenüber Spitzenmodellen, basierend auf einem benutzerdefinierten Benchmark mit autonomen Blood on the Clocktower-Spielen. Es bietet eine erhebliche Kosteneffizienz von 0,92 $ pro Spiel im Vergleich zu Claude Opus 4.6s 3,69 $, bei einer Werkzeugfehlerquote von 0 %.

AI benchmark Social Reasoning Blood on the Clocktower GLM 5.1

GLM 5.1 sits alongside frontier models in my social reasoning benchmark

ARTICLE↑ trendingHacker News (AI)·vor 15T

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Der Unsiloed Parser v3.1 erreichte den ersten Platz im olmOCR-Bench und übertraf damit 18 andere OCR-Dienste, darunter fortgeschrittene KI-Modelle. Die Bewertung, die über 1.403 PDFs und 8.413 Komponententests durchgeführt wurde, zeigte seine Fähigkeit, komplexe reale Dokumentherausforderungen wie komplizierte Tabellen und mehrspaltige Layouts zu bewältigen.

AI benchmark evaluation document parsing UnSiloed