AI benchmark

2 items

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

GLM 5.1 sits alongside frontier models in my social reasoning benchmark

GLM 5.1 demuestra ser muy competitivo en razonamiento social frente a modelos de vanguardia, según un benchmark propio basado en juegos de Blood on the Clocktower. El modelo es notablemente más económico, costando $0.92 por partida en comparación con los $3.69 de Claude Opus 4.6, y tiene una tasa de error de herramienta del 0%.

AI benchmark Social Reasoning Blood on the Clocktower GLM 5.1

GLM 5.1 sits alongside frontier models in my social reasoning benchmark

ARTICLE↑ trendingHacker News (AI)·hace 15d

Show HN: Unsiloed AI – #1 on olmOCR-Bench

El Unsiloed Parser v3.1 obtuvo el puesto número 1 en olmOCR-Bench, superando a otros 18 servicios de OCR, incluidos modelos avanzados de IA. La evaluación, realizada en 1.403 PDFs y 8.413 pruebas unitarias, demostró su capacidad para manejar desafíos complejos de documentos del mundo real, como tablas intrincadas y diseños de varias columnas.

AI benchmark evaluation document parsing UnSiloed