RESEARCHarXiv CS.AI·25d atrás
PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts
O artigo apresenta PolitNuggets, um benchmark multilíngue para a síntese de informações agênticas, focado na construção de biografias políticas para 400 elites globais. Ele avalia modelos de raciocínio grandes na descoberta e síntese de fatos políticos de "longa cauda", destacando desafios em detalhes finos e eficiência.
27