Dataset

12 items

ARTICLEDEV.to AI·4/18/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Dieser Artikel beschreibt die Erstellung des ersten öffentlichen Audiodatensatzes zur Erkennung des First Crack beim Kaffeerösten, wodurch eine erhebliche Lücke in den verfügbaren Ressourcen geschlossen wird. Der sorgfältig von Grund auf aufgebaute Datensatz mit 973 annotierten 10-Sekunden-Segmenten führte dank sorgfältiger Datenteilung und Verlustgewichtung zu einem Modell mit 100%iger Präzision.

Dataset audio processing data engineering machine learning

RESEARCHarXiv CS.CL·4/10/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·vor 7T

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Diese Arbeit stellt DraDDP vor, den ersten öffentlich verfügbaren englischen multimodalen Datensatz für die Analyse des Diskurses von Mehrparteien-Dialogen, basierend auf amerikanischen TV-Dramen. Er enthält 495 Dialogsegmente und zeigt den Wert multimodaler Informationen beim Erfassen von Dialogstrukturen und Beziehungstypen auf.

Dataset Dialogue Parsing multimodal AI natural language processing

RESEARCHDEV.to AI·4/13/2026

FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

FairFace ist ein Datensatz von Gesichtsattributen, der entwickelt wurde, um Verzerrungen in KI-Modellen durch eine ausgewogene Repräsentation von Rasse, Geschlecht und Alter zu mindern. Er zielt darauf ab, die Fairness und Robustheit von Computer-Vision-Systemen zu verbessern und somit eine gerechtere Leistung zu gewährleisten.

FairFace Dataset Bias Mitigation computer vision

ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Dieser Artikel beschreibt die Entwicklung von OmniSign, einem Echtzeit-Übersetzer für die libanesische Gebärdensprache (LSL), und befasst sich mit den Herausforderungen, KI für eine Sprache mit nahezu keinen Daten zu entwickeln. Der Autor betont, dass die größten Probleme nicht technischer, sondern menschlicher Natur waren. Die Inspiration entstand, als er Kommunikationsschwierigkeiten zwischen einem gehörlosen Mann und einer Barista in Beirut beobnete.

Dataset Low-Resource Language machine learning Sign Language AI

RESEARCHarXiv CS.CL·4/10/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

Dataset consensus framework educational video summarization machine learning

RESEARCHarXiv CS.CL·4/30/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.

Dataset mathematical reasoning LLMs Benchmarking

RESEARCHarXiv CS.CL·5/4/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Dieser Artikel stellt ViLegalNLI vor, den ersten groß angelegten vietnamesischen Natural Language Inference (NLI)-Datensatz speziell für den Rechtsbereich. Er umfasst 42.012 Prämissen-Hypothesen-Paare aus offiziellen Gesetzestexten, erstellt mit einem halbautomatischen Framework, das große Sprachmodelle für die Hypothesengenerierung und Validierung integriert.

Dataset Legal AI Natural Language Inference Vietnamese NLI

RESEARCHarXiv CS.CL·4/21/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS stellt den ersten feingranularen chinesischen multimodalen Sarkasmus-Erkennungs-Benchmark vor, bestehend aus 2.796 Bild-Text-Paaren mit dreifachen Annotationen. Dieser Datensatz zielt darauf ab, das feingranulare semantische Verständnis und das metaphorische Denken in KI-Modellen zu verbessern und bestehende Benchmark-Einschränkungen zu beheben.

Dataset multimodal AI natural language processing benchmark

RESEARCHarXiv CS.CL·vor 8T

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Diese Forschungsarbeit untersucht die globale Narrativdominanz in Großen Sprachmodellen (LLMs), bei der lokales kulturelles Wissen oft von globalen Narrativen überschattet wird. Sie stellt den CulturalNB-Datensatz für bengalische Kulturkontexte vor und zeigt, dass in Englisch gestellte Fragen die globale Substitution und institutionelle Rahmung verstärken und die Abdeckung lokaler Perspektiven reduzieren.

Dataset Cross-lingual Cultural Bias natural language processing

RESEARCHarXiv CS.AI·4/23/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA ist ein neuer dreistufiger Benchmark mit 293 Problemen der Ingenieurthermodynamik, der zur Bewertung des thermodynamischen Denkvermögens von LLMs eingeführt wurde. Führende LLMs wie Claude Opus 4.6 und GPT-5.4 erzielen hohe Punktzahlen, doch die tierübergreifende Verschlechterung bestätigt, dass das Auswendiglernen von Eigenschaften kein thermodynamisches Denkvermögen bedeutet; der Datensatz und Code sind Open-Source.

Dataset Benchmarking large language models AI evaluation

RESEARCHDEV.to AI·4/9/2026

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Charades-Ego ist ein groß angelegter Datensatz mit gepaarten Videos aus der dritten und ersten Person. Diese Ressource ist wertvoll für die Forschung in Computer Vision und Videoanalyse.

Dataset First-person vision Third-person vision computer vision