Dataset

12 items

ARTICLEDEV.to AI·18/4/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Este artículo describe la creación del primer conjunto de datos de audio público para la detección del "first crack" en el tueste de café, llenando un vacío importante. El dataset, con 973 segmentos anotados de 10 segundos, fue construido desde cero y permitió que un modelo lograra una precisión del 100% gracias a elecciones de diseño cuidadosas.

Dataset audio processing data engineering machine learning

RESEARCHarXiv CS.CL·10/4/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·hace 7d

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Este artículo presenta DraDDP, el primer conjunto de datos multimodal en inglés disponible públicamente para el análisis de discurso de diálogo multipartito, basado en dramas televisivos estadounidenses. Contiene 495 segmentos de diálogo y demuestra el valor de la información multimodal para capturar estructuras de diálogo y tipos de relación.

Dataset Dialogue Parsing multimodal AI natural language processing

RESEARCHDEV.to AI·13/4/2026

FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

FairFace es un conjunto de datos de atributos faciales creado para abordar los sesgos en los modelos de IA, ofreciendo una representación equilibrada de raza, género y edad. Busca mejorar la equidad y la robustez de los sistemas de visión por computadora, asegurando un rendimiento más justo.

FairFace Dataset Bias Mitigation computer vision

ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Este artículo detalla el desarrollo de OmniSign, un traductor en tiempo real para la Lengua de Signos Libanesa (LSL), abordando los desafíos de crear IA para un idioma con un conjunto de datos casi inexistente. El autor enfatiza que los problemas más difíciles encontrados no fueron técnicos, sino humanos. La inspiración surgió al presenciar las dificultades de comunicación entre un hombre sordo y un barista en Beirut.

Dataset Low-Resource Language machine learning Sign Language AI

RESEARCHarXiv CS.CL·10/4/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

Dataset consensus framework educational video summarization machine learning

RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

Dataset mathematical reasoning LLMs Benchmarking

RESEARCHarXiv CS.CL·4/5/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Este artículo presenta ViLegalNLI, el primer conjunto de datos a gran escala de Inferencia de Lenguaje Natural (NLI) en vietnamita, construido específicamente para el dominio legal. El conjunto de datos incluye 42.012 pares de premisa-hipótesis derivados de documentos estatutarios oficiales, desarrollado con un marco semi-automático que integra grandes modelos de lenguaje.

Dataset Legal AI Natural Language Inference Vietnamese NLI

RESEARCHarXiv CS.CL·21/4/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS presenta el primer benchmark chino de detección de sarcasmo multimodal y de grano fino, que comprende 2.796 pares de imagen-texto con anotaciones de triple nivel. Este conjunto de datos busca mejorar la comprensión semántica fina y el razonamiento metafórico en los modelos de IA, abordando las limitaciones de los benchmarks existentes.

Dataset multimodal AI natural language processing benchmark

RESEARCHarXiv CS.CL·hace 8d

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Este artículo de investigación explora la dominancia narrativa global en Modelos de Lenguaje Grandes (LLMs), donde el conocimiento cultural local a menudo es eclipsado por narrativas globales. Introduce el conjunto de datos CulturalNB para contextos culturales bengalíes y demuestra que las preguntas formuladas en inglés tienden a aumentar la sustitución global y el encuadre institucional, reduciendo la cobertura de la perspectiva local.

Dataset Cross-lingual Cultural Bias natural language processing

RESEARCHarXiv CS.AI·23/4/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Se presenta ThermoQA, un nuevo benchmark de 293 problemas de termodinámica de ingeniería en tres niveles, para evaluar el razonamiento termodinámico en LLMs. LLMs líderes como Claude Opus 4.6 y GPT-5.4 obtienen altas puntuaciones, pero la degradación entre niveles subraya que la memorización de propiedades no implica razonamiento termodinámico, siendo el conjunto de datos y el código de código abierto.

Dataset Benchmarking large language models AI evaluation

RESEARCHDEV.to AI·9/4/2026

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Charades-Ego es un conjunto de datos a gran escala que presenta videos emparejados en tercera y primera persona. Este recurso es valioso para la investigación en visión por computadora y análisis de video.

Dataset First-person vision Third-person vision computer vision