Judicial tasks — articles, actualités et recherches IA

RESEARCHarXiv CS.CL·il y a 29j

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench est un nouveau benchmark pour évaluer les grands modèles linguistiques (LLM) sur des tâches juridiques de niveau magistrat, utilisant 74 questions issues de récents examens compétitifs judiciaires brésiliens. Il évalue 23 LLM de pointe en utilisant une méthodologie "LLM-en-tant que juge" avec un fort accord inter-juges.

LLMs Legal AI Judicial tasks Benchmarks