heapsort
RESEARCH27

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

arXiv CS.CL·9 de abril de 2026

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

Leer original