RESEARCHarXiv CS.CL·4/9/2026
Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models
Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.
27