Judicial tasks — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·29d atrás

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench é um novo benchmark para avaliar Large Language Models (LLMs) em tarefas jurídicas de nível magistral, utilizando 74 questões de exames competitivos judiciais brasileiros recentes. Ele avalia 23 LLMs de ponta usando uma metodologia "LLM-como-juiz" com forte concordância entre os avaliadores.

LLMs Legal AI Judicial tasks Benchmarks