← heapsort-ai

Dataset

12 items

ARTICLEDEV.to AI·18/4/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Este artículo describe la creación del primer conjunto de datos de audio público para la detección del "first crack" en el tueste de café, llenando un vacío importante. El dataset, con 973 segmentos anotados de 10 segundos, fue construido desde cero y permitió que un modelo lograra una precisión del 100% gracias a elecciones de diseño cuidadosas.

31
RESEARCHarXiv CS.CL·10/4/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·hace 7d

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Este artículo presenta DraDDP, el primer conjunto de datos multimodal en inglés disponible públicamente para el análisis de discurso de diálogo multipartito, basado en dramas televisivos estadounidenses. Contiene 495 segmentos de diálogo y demuestra el valor de la información multimodal para capturar estructuras de diálogo y tipos de relación.

29
ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Este artículo detalla el desarrollo de OmniSign, un traductor en tiempo real para la Lengua de Signos Libanesa (LSL), abordando los desafíos de crear IA para un idioma con un conjunto de datos casi inexistente. El autor enfatiza que los problemas más difíciles encontrados no fueron técnicos, sino humanos. La inspiración surgió al presenciar las dificultades de comunicación entre un hombre sordo y un barista en Beirut.

27
RESEARCHarXiv CS.CL·10/4/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·30/4/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

27
RESEARCHarXiv CS.CL·4/5/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Este artículo presenta ViLegalNLI, el primer conjunto de datos a gran escala de Inferencia de Lenguaje Natural (NLI) en vietnamita, construido específicamente para el dominio legal. El conjunto de datos incluye 42.012 pares de premisa-hipótesis derivados de documentos estatutarios oficiales, desarrollado con un marco semi-automático que integra grandes modelos de lenguaje.

27
RESEARCHarXiv CS.CL·21/4/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS presenta el primer benchmark chino de detección de sarcasmo multimodal y de grano fino, que comprende 2.796 pares de imagen-texto con anotaciones de triple nivel. Este conjunto de datos busca mejorar la comprensión semántica fina y el razonamiento metafórico en los modelos de IA, abordando las limitaciones de los benchmarks existentes.

27
RESEARCHarXiv CS.CL·hace 8d

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Este artículo de investigación explora la dominancia narrativa global en Modelos de Lenguaje Grandes (LLMs), donde el conocimiento cultural local a menudo es eclipsado por narrativas globales. Introduce el conjunto de datos CulturalNB para contextos culturales bengalíes y demuestra que las preguntas formuladas en inglés tienden a aumentar la sustitución global y el encuadre institucional, reduciendo la cobertura de la perspectiva local.

27
RESEARCHarXiv CS.AI·23/4/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Se presenta ThermoQA, un nuevo benchmark de 293 problemas de termodinámica de ingeniería en tres niveles, para evaluar el razonamiento termodinámico en LLMs. LLMs líderes como Claude Opus 4.6 y GPT-5.4 obtienen altas puntuaciones, pero la degradación entre niveles subraya que la memorización de propiedades no implica razonamiento termodinámico, siendo el conjunto de datos y el código de código abierto.

27