heapsort
RESEARCH↑ trending42

Built an political benchmark for LLMs. KIMI K2 can't answer about Taiwan (Obviously). GPT-5.3 refuses 100% of questions when given an opt-out. [P]

Reddit r/MachineLearning·16 de abril de 2026

Un investigador creó un benchmark para mapear LLMs en una brújula política 2D utilizando 98 preguntas, descubriendo que la negativa a responder es una postura política. Los resultados iniciales incluyen GPT-5.3, Claude Opus 4.6 y KIMI K2, y el repositorio es de código abierto.

Leer original