← heapsort-ai

métricas de IA

1 items

RESEARCHarXiv CS.CL·4/8/2026

Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation

Este artigo propõe OmniScore, uma família de métricas determinísticas desenvolvidas com modelos pequenos, para avaliar texto gerado de forma mais eficiente e reprodutível do que LLMs-juízes. Ele aproxima o comportamento de LLMs-juízes, preserva baixa latência e consistência, e suporta avaliações multidimensionais em 107 idiomas.

27