RESEARCH27

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv CS.CL·12. Mai 2026

Magis-Bench ist ein neuer Benchmark zur Bewertung von großen Sprachmodellen (LLMs) bei juristischen Aufgaben auf Richterniveau, der 74 Fragen aus aktuellen brasilianischen Wettbewerbsprüfungen für Richterpositionen verwendet. Er bewertet 23 hochmoderne LLMs mittels einer "LLM-als-Richter"-Methodik mit hoher Inter-Richter-Übereinstimmung.

LLMs Legal AI Judicial tasks Benchmarks AI evaluation

Original lesen ↗