← heapsort-ai

Dataset

12 items

ARTICLEDEV.to AI·18/04/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Cet article décrit la création du premier ensemble de données audio public pour la détection du "first crack" dans la torréfaction du café, comblant une lacune notable. Le dataset, comprenant 973 segments annotés de 10 secondes, a été construit à partir de zéro et a permis à un modèle d'atteindre 100% de précision grâce à des choix de conception judicieux.

31
RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
RESEARCHarXiv CS.CL·il y a 7j

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Cet article introduit DraDDP, le premier ensemble de données multimodal anglais publiquement disponible pour l'analyse du discours de dialogue multipartite, basé sur des drames télévisés américains. Il contient 495 segments de dialogue et démontre la valeur des informations multimodales pour capturer les structures de dialogue et les types de relations.

29
ARTICLEDEV.to AI·05/05/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Cet article détaille le développement d'OmniSign, un traducteur en temps réel pour la langue des signes libanaise (LSL), en abordant les défis de la création d'IA pour une langue avec un ensemble de données presque inexistant. L'auteur souligne que les problèmes les plus difficiles rencontrés n'étaient pas techniques mais humains. L'inspiration est venue en observant les difficultés de communication entre un homme sourd et un barista à Beyrouth.

27
RESEARCHarXiv CS.CL·10/04/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Cet article présente MATH-PT, un nouvel ensemble de données de 1 729 problèmes mathématiques en portugais européen et brésilien, pour corriger le biais linguistique dans l'évaluation du raisonnement mathématique des LLM. Le benchmark révèle que les modèles de pointe obtiennent de bons résultats sur les questions à choix multiples, mais que leurs performances diminuent pour les questions ouvertes.

27
RESEARCHarXiv CS.CL·04/05/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Cet article présente ViLegalNLI, le premier ensemble de données d'inférence en langage naturel (NLI) à grande échelle pour les textes juridiques vietnamiens. Il se compose de 42 012 paires prémisse-hypothèse provenant de documents statutaires officiels, construit à l'aide d'un cadre semi-automatique intégrant de grands modèles linguistiques pour la génération et la validation.

27
RESEARCHarXiv CS.CL·21/04/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS introduit le premier benchmark chinois de détection de sarcasme multimodal et à grain fin, composé de 2 796 paires image-texte avec des annotations à triple niveau. Cet ensemble de données vise à améliorer la compréhension sémantique fine et le raisonnement métaphorique des modèles d'IA, répondant aux limitations des benchmarks existants.

27
RESEARCHarXiv CS.CL·il y a 8j

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Cet article de recherche examine la dominance narrative globale dans les Grands Modèles Linguistiques (LLMs), où les connaissances culturelles locales sont souvent éclipsées par les récits mondiaux. Il introduit l'ensemble de données CulturalNB pour les contextes culturels bengalis et démontre que les questions posées en anglais augmentent la substitution globale et le cadrage institutionnel, réduisant la couverture des perspectives locales.

27
RESEARCHarXiv CS.AI·23/04/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA est un nouveau benchmark à trois niveaux de 293 problèmes de thermodynamique d'ingénierie, conçu pour évaluer le raisonnement des LLM. Les LLM de pointe comme Claude Opus 4.6 et GPT-5.4 sont en tête, mais la dégradation inter-niveaux confirme que la mémorisation des propriétés n'implique pas le raisonnement thermodynamique, avec le jeu de données et le code en open-source.

27