← heapsort-ai

Dataset

12 items

ARTICLEDEV.to AI·4/18/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Dieser Artikel beschreibt die Erstellung des ersten öffentlichen Audiodatensatzes zur Erkennung des First Crack beim Kaffeerösten, wodurch eine erhebliche Lücke in den verfügbaren Ressourcen geschlossen wird. Der sorgfältig von Grund auf aufgebaute Datensatz mit 973 annotierten 10-Sekunden-Segmenten führte dank sorgfältiger Datenteilung und Verlustgewichtung zu einem Modell mit 100%iger Präzision.

31
RESEARCHarXiv CS.CL·4/10/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Dieser Artikel beschreibt die Entwicklung von OmniSign, einem Echtzeit-Übersetzer für die libanesische Gebärdensprache (LSL), und befasst sich mit den Herausforderungen, KI für eine Sprache mit nahezu keinen Daten zu entwickeln. Der Autor betont, dass die größten Probleme nicht technischer, sondern menschlicher Natur waren. Die Inspiration entstand, als er Kommunikationsschwierigkeiten zwischen einem gehörlosen Mann und einer Barista in Beirut beobnete.

27
RESEARCHarXiv CS.CL·4/10/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·4/30/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.

27
RESEARCHarXiv CS.CL·5/4/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Dieser Artikel stellt ViLegalNLI vor, den ersten groß angelegten vietnamesischen Natural Language Inference (NLI)-Datensatz speziell für den Rechtsbereich. Er umfasst 42.012 Prämissen-Hypothesen-Paare aus offiziellen Gesetzestexten, erstellt mit einem halbautomatischen Framework, das große Sprachmodelle für die Hypothesengenerierung und Validierung integriert.

27
RESEARCHarXiv CS.CL·4/21/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS stellt den ersten feingranularen chinesischen multimodalen Sarkasmus-Erkennungs-Benchmark vor, bestehend aus 2.796 Bild-Text-Paaren mit dreifachen Annotationen. Dieser Datensatz zielt darauf ab, das feingranulare semantische Verständnis und das metaphorische Denken in KI-Modellen zu verbessern und bestehende Benchmark-Einschränkungen zu beheben.

27
RESEARCHarXiv CS.CL·vor 8T

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Diese Forschungsarbeit untersucht die globale Narrativdominanz in Großen Sprachmodellen (LLMs), bei der lokales kulturelles Wissen oft von globalen Narrativen überschattet wird. Sie stellt den CulturalNB-Datensatz für bengalische Kulturkontexte vor und zeigt, dass in Englisch gestellte Fragen die globale Substitution und institutionelle Rahmung verstärken und die Abdeckung lokaler Perspektiven reduzieren.

27
RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.

27