datasets

19 items

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Um pesquisador independente criou o SGOCR, um pipeline de dataset de código aberto focado em OCR e VQA com fundamento espacial, para preencher uma lacuna em datasets visuais para fundamentar texto em imagens. Este pipeline gera tuplas VQA com metadados ricos, suportando diversas estratégias de treinamento de VLM.

Open Source Vision-Language Models datasets OCR

RESEARCHarXiv CS.AI·1d atrás

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artigo apresenta CrowdMath, um conjunto de dados de 164 cadeias de progresso anotadas por especialistas do programa CrowdMath do MIT PRIMES--Art of Problem Solving. Ele visa avaliar modelos de linguagem grandes na resolução colaborativa de problemas matemáticos abertos, diferenciando-se das avaliações que focam apenas em respostas finais ou provas completas.

mathematical reasoning LLMs datasets Benchmarks

RESEARCHarXiv CS.CL·1d atrás

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

O projeto HKJudge introduz o primeiro corpus de discurso jurídico anotado por especialistas em nível de sentença de sentenças criminais de Hong Kong, compreendendo cerca de 290 mil frases. Ele utiliza um esquema de discurso de dois níveis para identificar o que os tribunais encontram, como raciocinam e o que decidem, com alta concordância entre anotadores.

natural language processing datasets linguistics legal tech

RESEARCHarXiv CS.LG·19d atrás

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Esta pesquisa apresenta o MagBridge-Battery v1.0, um novo conjunto de dados sintéticos com 6.760 assinaturas de campo magnético para o diagnóstico da saúde de baterias de íon-lítio. Ele combina dados magnéticos reais com rótulos de estado de saúde para superar a escassez de conjuntos de dados públicos para sensoriamento magnético em estudos de degradação de baterias.

Battery Diagnostics State-of-Health Magnetometry Li-ion Batteries

RESEARCHarXiv CS.AI·4d atrás

Synthetic Contrastive Reasoning for Multi-Table Q&A

O artigo apresenta um conjunto de dados sintético de rastreamento de raciocínio contrastivo para Q&A multi-tabelas (MMQA), visando fornecer supervisão de raciocínio ausente em recursos existentes. Modelos LLM de peso aberto, ajustados com Otimização de Preferência Contrastiva (CPO) usando este conjunto de dados, exibiram melhorias significativas de desempenho.

Question Answering machine learning NLP datasets

RESEARCHHugging Face Blog·5d atrás

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 apresenta uma versão atualizada de um benchmark com 3 domínios, 121 ferramentas e 213 cenários. Este conjunto de dados é projetado para a avaliação de sistemas e ferramentas de IA.

AI benchmarking datasets AI tools AI evaluation

RESEARCHarXiv CS.CL·08/05/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

O When2Speak é um novo conjunto de dados sintético e pipeline de quatro estágios para ensinar a modelos de linguagem grandes (LLMs) o momento certo de intervir em conversas multipartidárias. Ele aborda o desafio de evitar interrupções excessivas e melhorar a coerência conversacional em interações de grupo.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.CL·6d atrás

Translating Classical Poetry into Modern Prose

Padyam2Gadyam é um novo conjunto de dados para tradução de poesia em prosa, cobrindo poesia clássica Telugu dos séculos XIII-XVII para prosa Telugu e inglesa contemporânea. A avaliação de cinco LLMs neste conjunto de dados revelou que, embora haja diferenças entre os modelos, seu desempenho geral ainda tem muito espaço para melhorias.

poetry LLMs Translation natural language processing

RESEARCHarXiv CS.CL·6d atrás

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX é um grande benchmark multilingue introduzido para resolver os desafios das expressões idiomáticas no processamento de linguagem natural. Ele contém mais de 190 mil exemplos contextualizados abrangendo mais de 12 mil idiomatismos com representações semânticas alinhadas em inglês, árabe e francês.

language models natural language processing datasets Benchmarks

ARTICLEDEV.to AI·22d atrás

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

O artigo propõe a criação de um "Biomedical TransitionNet", um novo tipo de dataset análogo ao ImageNet, mas focado em transições de estado biológico para a próxima geração de IA médica. Ele argumenta a necessidade de tal infraestrutura para construir modelos do mundo real em biomedicina, indo além da classificação e previsão.

Biomedical TransitionNet datasets AI infrastructure healthcare AI

RESEARCHarXiv CS.CL·20/04/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience é um assistente LLM proativo que visa acelerar a descoberta biomédica, melhorando a colaboração entre IA e especialistas humanos. Ele utiliza PULI, uma nova estrutura de aprendizado por reforço para intervenções contextuais, e introduz o conjunto de dados BSDD para diálogos de pesquisa simulados.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·10/05/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA é um novo conjunto de dados projetado para desafiar e avaliar sistemas de IA em raciocínio visual e resposta a perguntas composicionais. Ele visa promover a compreensão da cena e a interação multimodal em cenários do mundo real.

Question Answering visual reasoning computer vision datasets

RESEARCHDEV.to AI·25/04/2026

JSUT corpus: free large-scale Japanese speech corpus for end-to-end speechsynthesis

O corpus JSUT é um conjunto de dados de fala japonês gratuito e em larga escala, projetado para pesquisa em síntese de fala de ponta a ponta. Ele fornece recursos valiosos para o desenvolvimento de modelos avançados de IA em tecnologia de fala para o idioma japonês.

japanese language speech synthesis machine learning natural language processing

DOCHugging Face (YouTube)·7d atrás

How to Create an LLM Dataset | FineWeb Overview

Este conteúdo oferece um guia sobre como criar conjuntos de dados para Modelos de Linguagem Grandes (LLMs). Ele inclui uma visão geral do FineWeb, um recurso relevante para este processo.

learning datasets AI development FineWeb

How to Create an LLM Dataset | FineWeb Overview

RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artigo apresenta o BatteryPass-12K, o primeiro conjunto de dados público para a nova tarefa de classificação de conformidade de passaportes digitais de baterias (DBP), preenchendo uma lacuna antes da regulamentação da UE. Avaliando 22 modelos de linguagem, o estudo revela que modelos de "Pensamento" como o GPT-5.4 têm o melhor desempenho, e exemplos few-shot melhoram significativamente os resultados.

evaluation Benchmarking natural language processing datasets

RESEARCHarXiv CS.CL·08/05/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Este artigo propõe um modelo baseado em evidências para gerar consultas a partir de conjuntos de dados de sumarização sem consulta, abordando a escassez de dados para Sumarização Focada em Consulta (QFS). Os resultados experimentais indicam que os resumos gerados com essas consultas baseadas em evidências alcançam pontuações ROUGE competitivas, comprovando sua eficácia para a tarefa de QFS.

query generation natural language processing datasets summarization

RESEARCHarXiv CS.CL·04/05/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Um novo trabalho aborda a lacuna na avaliação do raciocínio cultural em LLMs, introduzindo o ArabCulture-Dialogue, um conjunto de dados conversacionais culturalmente fundamentado que abrange 13 países de língua árabe. As experiências revelam que os modelos apresentam pior desempenho em tarefas de raciocínio cultural, tradução e geração em configurações dialetais em comparação com o árabe padrão moderno.

LLMs Arabic dialects cultural reasoning Benchmarking

RESEARCHarXiv CS.LG·8d atrás

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval é um novo conjunto de dados abrangente desenvolvido para treinar e avaliar Grandes Modelos de Linguagem (LLMs) em programas OpenQASM-3 que utilizam recursos avançados orientados para hardware. Ele visa preencher uma lacuna na capacidade dos LLMs de lidar com a programação de computação quântica além das especificações de circuito de sequência de portas.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·14d atrás

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

O artigo apresenta InteractBind, um extenso conjunto de dados com cerca de 100 mil pares proteína-ligante, e um benchmark para avaliação detalhada. Ele visa verificar se os modelos podem localizar sítios de ligação e identificar interações não covalentes, preenchendo uma lacuna nas avaliações existentes.

molecular modeling Benchmarking drug discovery datasets