RESEARCHarXiv CS.CL·il y a 29j
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
Magis-Bench est un nouveau benchmark pour évaluer les grands modèles linguistiques (LLM) sur des tâches juridiques de niveau magistrat, utilisant 74 questions issues de récents examens compétitifs judiciaires brésiliens. Il évalue 23 LLM de pointe en utilisant une méthodologie "LLM-en-tant que juge" avec un fort accord inter-juges.
27