RESEARCH↑ trending42

Built an political benchmark for LLMs. KIMI K2 can't answer about Taiwan (Obviously). GPT-5.3 refuses 100% of questions when given an opt-out. [P]

Reddit r/MachineLearning·16 de abril de 2026

Um pesquisador criou um benchmark para mapear LLMs em um compasso político 2D usando 98 perguntas, descobrindo que a recusa em responder é uma postura política. Os resultados iniciais incluem GPT-5.3, Claude Opus 4.6 e KIMI K2, com o repositório totalmente open-source.

LLMs political-bias Benchmarking AI ethics

Ler original ↗