← heapsort-ai

datasets

19 items

RESEARCHarXiv CS.AI·hace 1d

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.

40
RESEARCHarXiv CS.CL·hace 1d

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

El proyecto HKJudge introduce el primer corpus de discurso legal anotado por expertos a nivel de oración de sentencias penales de Hong Kong, que comprende aproximadamente 290 mil oraciones. Utiliza un esquema de discurso de dos niveles para identificar lo que los tribunales encuentran, cómo razonan y lo que dictaminan, con un alto acuerdo entre anotadores.

40
RESEARCHarXiv CS.LG·hace 19d

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Esta investigación presenta MagBridge-Battery v1.0, un nuevo conjunto de datos sintéticos que comprende 6.760 firmas de campo magnético para diagnosticar la salud de las baterías de iones de litio. Une datos magnéticos reales con etiquetas de estado de salud para superar la falta de conjuntos de datos públicos para la detección magnética en estudios de degradación de baterías.

30
RESEARCHarXiv CS.AI·hace 4d

Synthetic Contrastive Reasoning for Multi-Table Q&A

El artículo introduce un conjunto de datos sintético de rastreo de razonamiento contrastivo para la respuesta a preguntas multi-tabla (MMQA), con el objetivo de proporcionar supervisión de razonamiento que falta en los recursos existentes. Los LLM de código abierto, ajustados con Optimización de Preferencia Contrastiva (CPO) utilizando este conjunto de datos, mostraron mejoras significativas en el rendimiento.

28
RESEARCHarXiv CS.CL·8/5/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak es un nuevo conjunto de datos sintético y una pipeline de generación de cuatro etapas diseñado para enseñar a los Grandes Modelos de Lenguaje (LLMs) el momento adecuado para intervenir en conversaciones multipartitas. Aborda el desafío de evitar interrupciones excesivas y mejorar la coherencia conversacional en interacciones grupales.

27
ARTICLEDEV.to AI·hace 22d

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

El artículo propone la creación de un "Biomedical TransitionNet", un nuevo tipo de conjunto de datos análogo a ImageNet, pero centrado en las transiciones de estados biológicos para la próxima generación de IA médica. Argumenta la necesidad de dicha infraestructura para construir modelos del mundo real en biomedicina, yendo más allá de la clasificación y la predicción.

27
RESEARCHarXiv CS.CL·20/4/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience se presenta como un asistente LLM proactivo para acelerar el descubrimiento biomédico mediante la mejora de la colaboración entre IA y expertos humanos. Utiliza PULI, un nuevo marco de aprendizaje por refuerzo para intervenciones oportunas, y también introduce BSDD, un nuevo conjunto de datos de diálogo de investigación simulado.

27
RESEARCHarXiv CS.CL·1/5/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artículo introduce BatteryPass-12K, el primer conjunto de datos público para la novedosa tarea de clasificación de conformidad de pasaportes digitales de baterías (DBP), abordando una necesidad crítica antes de las nuevas regulaciones de la UE. Se evaluaron 22 modelos de lenguaje, revelando que los modelos de "Pensamiento" como GPT-5.4 logran el mejor rendimiento y que los ejemplos few-shot mejoran significativamente los resultados.

27
RESEARCHarXiv CS.CL·8/5/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Este artículo propone un modelo basado en evidencia para generar consultas a partir de conjuntos de datos de resumen sin consulta, abordando la escasez de datos para la Sumarización Enfocada en Consultas (QFS). Los resultados experimentales indican que los resúmenes generados con estas consultas basadas en evidencia logran puntuaciones ROUGE competitivas, demostrando su eficacia para la tarea de QFS.

27
RESEARCHarXiv CS.CL·4/5/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Una nueva investigación aborda la brecha en la evaluación del razonamiento cultural en LLMs, presentando ArabCulture-Dialogue, un conjunto de datos conversacionales culturalmente fundamentado que cubre 13 países de habla árabe. Los experimentos indican que los modelos rinden peor en tareas de razonamiento cultural, traducción y generación en configuraciones dialectales en comparación con el árabe estándar moderno.

27
RESEARCHarXiv CS.LG·hace 8d

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval es un nuevo y completo conjunto de datos diseñado para entrenar y evaluar Grandes Modelos de Lenguaje (LLMs) en programas OpenQASM-3 que involucran características avanzadas orientadas al hardware. Aborda una brecha en la capacidad de los LLMs para manejar la programación de computación cuántica más allá de la especificación de circuitos de secuencia de puertas.

27
RESEARCHarXiv CS.LG·hace 14d

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

El documento introduce InteractBind, un conjunto de datos a gran escala de aproximadamente 100 mil pares proteína-ligando, junto con un benchmark para una evaluación detallada. Su objetivo es determinar si los modelos pueden localizar sitios de unión e identificar interacciones no covalentes, abordando una deficiencia en las evaluaciones existentes.

27