← heapsort-ai

datasets

19 items

RESEARCHarXiv CS.AI·1d atrás

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artigo apresenta CrowdMath, um conjunto de dados de 164 cadeias de progresso anotadas por especialistas do programa CrowdMath do MIT PRIMES--Art of Problem Solving. Ele visa avaliar modelos de linguagem grandes na resolução colaborativa de problemas matemáticos abertos, diferenciando-se das avaliações que focam apenas em respostas finais ou provas completas.

40
RESEARCHarXiv CS.CL·1d atrás

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

O projeto HKJudge introduz o primeiro corpus de discurso jurídico anotado por especialistas em nível de sentença de sentenças criminais de Hong Kong, compreendendo cerca de 290 mil frases. Ele utiliza um esquema de discurso de dois níveis para identificar o que os tribunais encontram, como raciocinam e o que decidem, com alta concordância entre anotadores.

40
RESEARCHarXiv CS.LG·19d atrás

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Esta pesquisa apresenta o MagBridge-Battery v1.0, um novo conjunto de dados sintéticos com 6.760 assinaturas de campo magnético para o diagnóstico da saúde de baterias de íon-lítio. Ele combina dados magnéticos reais com rótulos de estado de saúde para superar a escassez de conjuntos de dados públicos para sensoriamento magnético em estudos de degradação de baterias.

30
RESEARCHarXiv CS.AI·4d atrás

Synthetic Contrastive Reasoning for Multi-Table Q&A

O artigo apresenta um conjunto de dados sintético de rastreamento de raciocínio contrastivo para Q&A multi-tabelas (MMQA), visando fornecer supervisão de raciocínio ausente em recursos existentes. Modelos LLM de peso aberto, ajustados com Otimização de Preferência Contrastiva (CPO) usando este conjunto de dados, exibiram melhorias significativas de desempenho.

28
RESEARCHarXiv CS.CL·08/05/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

O When2Speak é um novo conjunto de dados sintético e pipeline de quatro estágios para ensinar a modelos de linguagem grandes (LLMs) o momento certo de intervir em conversas multipartidárias. Ele aborda o desafio de evitar interrupções excessivas e melhorar a coerência conversacional em interações de grupo.

27
RESEARCHarXiv CS.CL·6d atrás

Translating Classical Poetry into Modern Prose

Padyam2Gadyam é um novo conjunto de dados para tradução de poesia em prosa, cobrindo poesia clássica Telugu dos séculos XIII-XVII para prosa Telugu e inglesa contemporânea. A avaliação de cinco LLMs neste conjunto de dados revelou que, embora haja diferenças entre os modelos, seu desempenho geral ainda tem muito espaço para melhorias.

27
ARTICLEDEV.to AI·22d atrás

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

O artigo propõe a criação de um "Biomedical TransitionNet", um novo tipo de dataset análogo ao ImageNet, mas focado em transições de estado biológico para a próxima geração de IA médica. Ele argumenta a necessidade de tal infraestrutura para construir modelos do mundo real em biomedicina, indo além da classificação e previsão.

27
RESEARCHarXiv CS.CL·20/04/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience é um assistente LLM proativo que visa acelerar a descoberta biomédica, melhorando a colaboração entre IA e especialistas humanos. Ele utiliza PULI, uma nova estrutura de aprendizado por reforço para intervenções contextuais, e introduz o conjunto de dados BSDD para diálogos de pesquisa simulados.

27
RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artigo apresenta o BatteryPass-12K, o primeiro conjunto de dados público para a nova tarefa de classificação de conformidade de passaportes digitais de baterias (DBP), preenchendo uma lacuna antes da regulamentação da UE. Avaliando 22 modelos de linguagem, o estudo revela que modelos de "Pensamento" como o GPT-5.4 têm o melhor desempenho, e exemplos few-shot melhoram significativamente os resultados.

27
RESEARCHarXiv CS.CL·08/05/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Este artigo propõe um modelo baseado em evidências para gerar consultas a partir de conjuntos de dados de sumarização sem consulta, abordando a escassez de dados para Sumarização Focada em Consulta (QFS). Os resultados experimentais indicam que os resumos gerados com essas consultas baseadas em evidências alcançam pontuações ROUGE competitivas, comprovando sua eficácia para a tarefa de QFS.

27
RESEARCHarXiv CS.CL·04/05/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Um novo trabalho aborda a lacuna na avaliação do raciocínio cultural em LLMs, introduzindo o ArabCulture-Dialogue, um conjunto de dados conversacionais culturalmente fundamentado que abrange 13 países de língua árabe. As experiências revelam que os modelos apresentam pior desempenho em tarefas de raciocínio cultural, tradução e geração em configurações dialetais em comparação com o árabe padrão moderno.

27
RESEARCHarXiv CS.LG·8d atrás

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval é um novo conjunto de dados abrangente desenvolvido para treinar e avaliar Grandes Modelos de Linguagem (LLMs) em programas OpenQASM-3 que utilizam recursos avançados orientados para hardware. Ele visa preencher uma lacuna na capacidade dos LLMs de lidar com a programação de computação quântica além das especificações de circuito de sequência de portas.

27
RESEARCHarXiv CS.LG·14d atrás

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

O artigo apresenta InteractBind, um extenso conjunto de dados com cerca de 100 mil pares proteína-ligante, e um benchmark para avaliação detalhada. Ele visa verificar se os modelos podem localizar sítios de ligação e identificar interações não covalentes, preenchendo uma lacuna nas avaliações existentes.

27