RESEARCH27

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv CS.CL·12 mai 2026

Magis-Bench est un nouveau benchmark pour évaluer les grands modèles linguistiques (LLM) sur des tâches juridiques de niveau magistrat, utilisant 74 questions issues de récents examens compétitifs judiciaires brésiliens. Il évalue 23 LLM de pointe en utilisant une méthodologie "LLM-en-tant que juge" avec un fort accord inter-juges.

LLMs Legal AI Judicial tasks Benchmarks AI evaluation

Lire l'original ↗