RESEARCH27
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
arXiv CS.CL·12 de mayo de 2026
Magis-Bench es un nuevo benchmark para evaluar Modelos de Lenguaje Grandes (LLM) en tareas legales de nivel magistral, utilizando 74 preguntas de recientes exámenes competitivos judiciales brasileños. Evalúa 23 LLM de vanguardia utilizando una metodología "LLM-como-juez" con una fuerte concordancia entre los jueces.
Leer original ↗