Dataset

12 items

ARTICLEDEV.to AI·18/04/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Este artigo detalha a criação do primeiro conjunto de dados de áudio público para detecção de "first crack" na torra de café, preenchendo uma lacuna significativa. O dataset, com 973 segmentos de 10 segundos anotados, foi construído do zero e permitiu um modelo com 100% de precisão devido a escolhas de design cuidadosas.

Dataset audio processing data engineering machine learning

RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

Dataset custom vocabulary Speech-to-Text benchmark

RESEARCHarXiv CS.CL·7d atrás

DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset

Este artigo apresenta DraDDP, o primeiro dataset multimodal público em inglês para análise de discurso de diálogo multi-parte, baseado em dramas televisivos americanos. Ele contém 495 segmentos de diálogo e demonstra o valor da informação multimodal na captura de estruturas de diálogo e tipos de relação.

Dataset Dialogue Parsing multimodal AI natural language processing

RESEARCHDEV.to AI·13/04/2026

FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

FairFace é um dataset de atributos faciais desenvolvido para mitigar vieses em modelos de IA, oferecendo uma representação equilibrada de raça, gênero e idade. O objetivo é aprimorar a equidade e robustez de sistemas de visão computacional, garantindo um desempenho mais justo.

FairFace Dataset Bias Mitigation computer vision

ARTICLEDEV.to AI·05/05/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Este artigo detalha o desenvolvimento do OmniSign, um tradutor em tempo real para a Língua Gestual Libanesa (LSL), abordando os desafios de criar IA para uma língua com um conjunto de dados quase inexistente. O autor ressalta que os problemas mais difíceis não foram técnicos, mas sim humanos. A inspiração surgiu ao testemunhar as dificuldades de comunicação entre um homem surdo e uma barista em Beirute.

Dataset Low-Resource Language machine learning Sign Language AI

RESEARCHarXiv CS.CL·10/04/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

Dataset consensus framework educational video summarization machine learning

RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artigo apresenta o MATH-PT, um novo conjunto de dados com 1.729 problemas matemáticos em português europeu e brasileiro, para combater o viés linguístico nas avaliações de raciocínio matemático de LLMs. O benchmark revela que modelos de fronteira têm bom desempenho em questões de múltipla escolha, mas sua performance decai em perguntas abertas.

Dataset mathematical reasoning LLMs Benchmarking

RESEARCHarXiv CS.CL·04/05/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Este artigo apresenta o ViLegalNLI, o primeiro conjunto de dados em larga escala de Inferência de Linguagem Natural (NLI) para textos jurídicos vietnamitas. O conjunto de dados contém 42.012 pares de premissa-hipótese derivados de documentos estatutários oficiais, construído com um framework semi-automático que integra modelos de linguagem grandes para geração e validação de hipóteses.

Dataset Legal AI Natural Language Inference Vietnamese NLI

RESEARCHarXiv CS.CL·21/04/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS apresenta o primeiro benchmark chinês de detecção de sarcasmo multimodal e de granulosidade fina, contendo 2.796 pares de imagem-texto com anotações de nível triplo. Este conjunto de dados visa aprimorar a compreensão semântica fina e o raciocínio metafórico em modelos de IA, abordando as limitações dos benchmarks existentes.

Dataset multimodal AI natural language processing benchmark

RESEARCHarXiv CS.CL·8d atrás

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Este artigo de pesquisa explora a dominância narrativa global em Modelos de Linguagem Grandes (LLMs), onde o conhecimento cultural local é frequentemente ofuscado por narrativas globais. Introduz o dataset CulturalNB para contextos culturais bengalis e demonstra que perguntas em inglês tendem a promover a substituição global e o enquadramento institucional, diminuindo a cobertura da perspectiva local.

Dataset Cross-lingual Cultural Bias natural language processing

RESEARCHarXiv CS.AI·23/04/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Foi introduzido o ThermoQA, um novo benchmark de 293 problemas de termodinâmica de engenharia em três níveis, projetado para avaliar o raciocínio de LLMs. LLMs como Claude Opus 4.6 e GPT-5.4 lideram o placar, mas a degradação entre os níveis revela diferenças nas capacidades de raciocínio termodinâmico, com o conjunto de dados e código sendo de código aberto.

Dataset Benchmarking large language models AI evaluation

RESEARCHDEV.to AI·09/04/2026

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Charades-Ego é um grande conjunto de dados de vídeos pareados em primeira e terceira pessoa. Este recurso é valioso para a pesquisa em visão computacional e análise de vídeo.

Dataset First-person vision Third-person vision computer vision