RESEARCHarXiv CS.CL·29d atrás
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
Magis-Bench é um novo benchmark para avaliar Large Language Models (LLMs) em tarefas jurídicas de nível magistral, utilizando 74 questões de exames competitivos judiciais brasileiros recentes. Ele avalia 23 LLMs de ponta usando uma metodologia "LLM-como-juiz" com forte concordância entre os avaliadores.
27