RESEARCH27

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv CS.CL·12 de maio de 2026

Magis-Bench é um novo benchmark para avaliar Large Language Models (LLMs) em tarefas jurídicas de nível magistral, utilizando 74 questões de exames competitivos judiciais brasileiros recentes. Ele avalia 23 LLMs de ponta usando uma metodologia "LLM-como-juiz" com forte concordância entre os avaliadores.

LLMs Legal AI Judicial tasks Benchmarks AI evaluation

Ler original ↗