datasets

19 items

ARTICLE↑ trendingReddit r/MachineLearning·20/4/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un investigador independiente creó SGOCR, una pipeline de dataset de código abierto centrada en OCR y VQA con base espacial, para cubrir una brecha en los datasets visuales para la conexión de texto en imágenes. Esta pipeline genera tuplas VQA con metadatos enriquecidos, soportando diversas estrategias de entrenamiento de VLM.

Open Source Vision-Language Models datasets OCR

RESEARCHarXiv CS.AI·hace 1d

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.

mathematical reasoning LLMs datasets Benchmarks

RESEARCHarXiv CS.CL·hace 1d

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

El proyecto HKJudge introduce el primer corpus de discurso legal anotado por expertos a nivel de oración de sentencias penales de Hong Kong, que comprende aproximadamente 290 mil oraciones. Utiliza un esquema de discurso de dos niveles para identificar lo que los tribunales encuentran, cómo razonan y lo que dictaminan, con un alto acuerdo entre anotadores.

natural language processing datasets linguistics legal tech

RESEARCHarXiv CS.LG·hace 19d

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Esta investigación presenta MagBridge-Battery v1.0, un nuevo conjunto de datos sintéticos que comprende 6.760 firmas de campo magnético para diagnosticar la salud de las baterías de iones de litio. Une datos magnéticos reales con etiquetas de estado de salud para superar la falta de conjuntos de datos públicos para la detección magnética en estudios de degradación de baterías.

Battery Diagnostics State-of-Health Magnetometry Li-ion Batteries

RESEARCHarXiv CS.AI·hace 4d

Synthetic Contrastive Reasoning for Multi-Table Q&A

El artículo introduce un conjunto de datos sintético de rastreo de razonamiento contrastivo para la respuesta a preguntas multi-tabla (MMQA), con el objetivo de proporcionar supervisión de razonamiento que falta en los recursos existentes. Los LLM de código abierto, ajustados con Optimización de Preferencia Contrastiva (CPO) utilizando este conjunto de datos, mostraron mejoras significativas en el rendimiento.

Question Answering machine learning NLP datasets

RESEARCHHugging Face Blog·hace 5d

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 introduce una versión actualizada de un benchmark con 3 dominios, 121 herramientas y 213 escenarios. Este conjunto de datos está diseñado para la evaluación de sistemas y herramientas de IA.

AI benchmarking datasets AI tools AI evaluation

RESEARCHarXiv CS.CL·8/5/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak es un nuevo conjunto de datos sintético y una pipeline de generación de cuatro etapas diseñado para enseñar a los Grandes Modelos de Lenguaje (LLMs) el momento adecuado para intervenir en conversaciones multipartitas. Aborda el desafío de evitar interrupciones excesivas y mejorar la coherencia conversacional en interacciones grupales.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.CL·hace 6d

Translating Classical Poetry into Modern Prose

Se presenta Padyam2Gadyam, un conjunto de datos para la traducción de poesía a prosa del telugu clásico al telugu y inglés contemporáneo. La evaluación de cinco modelos de lenguaje grandes (LLMs) en esta tarea mostró que su rendimiento general aún necesita una mejora considerable.

poetry LLMs Translation natural language processing

RESEARCHarXiv CS.CL·hace 6d

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX es un benchmark multilingüe a gran escala introducido para abordar los desafíos de las expresiones idiomáticas en el procesamiento del lenguaje natural. Contiene más de 190 mil ejemplos contextualizados que abarcan más de 12 mil modismos con representaciones semánticas alineadas en inglés, árabe y francés.

language models natural language processing datasets Benchmarks

ARTICLEDEV.to AI·hace 22d

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

El artículo propone la creación de un "Biomedical TransitionNet", un nuevo tipo de conjunto de datos análogo a ImageNet, pero centrado en las transiciones de estados biológicos para la próxima generación de IA médica. Argumenta la necesidad de dicha infraestructura para construir modelos del mundo real en biomedicina, yendo más allá de la clasificación y la predicción.

Biomedical TransitionNet datasets AI infrastructure healthcare AI

RESEARCHarXiv CS.CL·20/4/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience se presenta como un asistente LLM proactivo para acelerar el descubrimiento biomédico mediante la mejora de la colaboración entre IA y expertos humanos. Utiliza PULI, un nuevo marco de aprendizaje por refuerzo para intervenciones oportunas, y también introduce BSDD, un nuevo conjunto de datos de diálogo de investigación simulado.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·10/5/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA es un nuevo conjunto de datos diseñado para desafiar y evaluar sistemas de IA en el razonamiento visual y la respuesta a preguntas composicionales. Su objetivo es avanzar en la comprensión de escenas y la interacción multimodal en escenarios del mundo real.

Question Answering visual reasoning computer vision datasets

RESEARCHDEV.to AI·25/4/2026

JSUT corpus: free large-scale Japanese speech corpus for end-to-end speechsynthesis

El corpus JSUT es un conjunto de datos de voz japonés gratuito y a gran escala, diseñado para la investigación en síntesis de voz de extremo a extremo. Proporciona recursos valiosos para el desarrollo de modelos avanzados de IA en tecnología de voz para el idioma japonés.

japanese language speech synthesis machine learning natural language processing

DOCHugging Face (YouTube)·hace 7d

How to Create an LLM Dataset | FineWeb Overview

Este contenido proporciona una guía sobre cómo crear conjuntos de datos para Modelos de Lenguaje Grandes (LLM). Incluye una visión general de FineWeb, un recurso relevante para este proceso.

learning datasets AI development FineWeb

How to Create an LLM Dataset | FineWeb Overview

RESEARCHarXiv CS.CL·1/5/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artículo introduce BatteryPass-12K, el primer conjunto de datos público para la novedosa tarea de clasificación de conformidad de pasaportes digitales de baterías (DBP), abordando una necesidad crítica antes de las nuevas regulaciones de la UE. Se evaluaron 22 modelos de lenguaje, revelando que los modelos de "Pensamiento" como GPT-5.4 logran el mejor rendimiento y que los ejemplos few-shot mejoran significativamente los resultados.

evaluation Benchmarking natural language processing datasets

RESEARCHarXiv CS.CL·8/5/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Este artículo propone un modelo basado en evidencia para generar consultas a partir de conjuntos de datos de resumen sin consulta, abordando la escasez de datos para la Sumarización Enfocada en Consultas (QFS). Los resultados experimentales indican que los resúmenes generados con estas consultas basadas en evidencia logran puntuaciones ROUGE competitivas, demostrando su eficacia para la tarea de QFS.

query generation natural language processing datasets summarization

RESEARCHarXiv CS.CL·4/5/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Una nueva investigación aborda la brecha en la evaluación del razonamiento cultural en LLMs, presentando ArabCulture-Dialogue, un conjunto de datos conversacionales culturalmente fundamentado que cubre 13 países de habla árabe. Los experimentos indican que los modelos rinden peor en tareas de razonamiento cultural, traducción y generación en configuraciones dialectales en comparación con el árabe estándar moderno.

LLMs Arabic dialects cultural reasoning Benchmarking

RESEARCHarXiv CS.LG·hace 8d

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval es un nuevo y completo conjunto de datos diseñado para entrenar y evaluar Grandes Modelos de Lenguaje (LLMs) en programas OpenQASM-3 que involucran características avanzadas orientadas al hardware. Aborda una brecha en la capacidad de los LLMs para manejar la programación de computación cuántica más allá de la especificación de circuitos de secuencia de puertas.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·hace 14d

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

El documento introduce InteractBind, un conjunto de datos a gran escala de aproximadamente 100 mil pares proteína-ligando, junto con un benchmark para una evaluación detallada. Su objetivo es determinar si los modelos pueden localizar sitios de unión e identificar interacciones no covalentes, abordando una deficiencia en las evaluaciones existentes.

molecular modeling Benchmarking drug discovery datasets