RESEARCH27

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv CS.CL·12 de mayo de 2026

Magis-Bench es un nuevo benchmark para evaluar Modelos de Lenguaje Grandes (LLM) en tareas legales de nivel magistral, utilizando 74 preguntas de recientes exámenes competitivos judiciales brasileños. Evalúa 23 LLM de vanguardia utilizando una metodología "LLM-como-juez" con una fuerte concordancia entre los jueces.

LLMs Legal AI Judicial tasks Benchmarks AI evaluation

Leer original ↗