RESEARCHarXiv CS.CL·08/04/2026
Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation
Este artigo propõe OmniScore, uma família de métricas determinísticas desenvolvidas com modelos pequenos, para avaliar texto gerado de forma mais eficiente e reprodutível do que LLMs-juízes. Ele aproxima o comportamento de LLMs-juízes, preserva baixa latência e consistência, e suporta avaliações multidimensionais em 107 idiomas.
27