RESEARCH27
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
arXiv CS.CL·12 de maio de 2026
Magis-Bench é um novo benchmark para avaliar Large Language Models (LLMs) em tarefas jurídicas de nível magistral, utilizando 74 questões de exames competitivos judiciais brasileiros recentes. Ele avalia 23 LLMs de ponta usando uma metodologia "LLM-como-juiz" com forte concordância entre os avaliadores.
Ler original ↗