← heapsort-ai

Dataset

12 items

ARTICLEDEV.to AI·18/04/2026

Part 2: The Data — Building the First Public Coffee Roasting Audio Dataset with Warp/Oz

Este artigo detalha a criação do primeiro conjunto de dados de áudio público para detecção de "first crack" na torra de café, preenchendo uma lacuna significativa. O dataset, com 973 segmentos de 10 segundos anotados, foi construído do zero e permitiu um modelo com 100% de precisão devido a escolhas de design cuidadosas.

31
RESEARCHarXiv CS.CL·10/04/2026

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Apesar da estagnação da precisão em benchmarks acadêmicos de fala para texto, as aplicações industriais exigem melhor reconhecimento de vocabulário raro e contextual. Este artigo introduz o Contextual Earnings-22, um novo dataset e benchmark para promover a pesquisa e revelar avanços no reconhecimento contextual de fala com vocabulário personalizado.

29
ARTICLEDEV.to AI·05/05/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Este artigo detalha o desenvolvimento do OmniSign, um tradutor em tempo real para a Língua Gestual Libanesa (LSL), abordando os desafios de criar IA para uma língua com um conjunto de dados quase inexistente. O autor ressalta que os problemas mais difíceis não foram técnicos, mas sim humanos. A inspiração surgiu ao testemunhar as dificuldades de comunicação entre um homem surdo e uma barista em Beirute.

27
RESEARCHarXiv CS.CL·10/04/2026

TR-EduVSum: A Turkish-Focused Dataset and Consensus Framework for Educational Video Summarization

Este estudo apresenta o dataset TR-EduVSum, focado em vídeos educacionais turcos, e propõe o método AutoMUP. Este método gera resumos padrão-ouro de forma automática e reproduzível a partir de múltiplos resumos humanos, usando agrupamento de unidades de significado e modelagem estatística de consenso.

27
RESEARCHarXiv CS.CL·30/04/2026

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

Este artigo apresenta o MATH-PT, um novo conjunto de dados com 1.729 problemas matemáticos em português europeu e brasileiro, para combater o viés linguístico nas avaliações de raciocínio matemático de LLMs. O benchmark revela que modelos de fronteira têm bom desempenho em questões de múltipla escolha, mas sua performance decai em perguntas abertas.

27
RESEARCHarXiv CS.CL·04/05/2026

ViLegalNLI: Natural Language Inference for Vietnamese Legal Texts

Este artigo apresenta o ViLegalNLI, o primeiro conjunto de dados em larga escala de Inferência de Linguagem Natural (NLI) para textos jurídicos vietnamitas. O conjunto de dados contém 42.012 pares de premissa-hipótese derivados de documentos estatutários oficiais, construído com um framework semi-automático que integra modelos de linguagem grandes para geração e validação de hipóteses.

27
RESEARCHarXiv CS.CL·21/04/2026

CFMS: Towards Explainable and Fine-Grained Chinese Multimodal Sarcasm Detection Benchmark

CFMS apresenta o primeiro benchmark chinês de detecção de sarcasmo multimodal e de granulosidade fina, contendo 2.796 pares de imagem-texto com anotações de nível triplo. Este conjunto de dados visa aprimorar a compreensão semântica fina e o raciocínio metafórico em modelos de IA, abordando as limitações dos benchmarks existentes.

27
RESEARCHarXiv CS.CL·8d atrás

When English Rewrites Local Knowledge: Global Narrative Dominance in Large Language Models

Este artigo de pesquisa explora a dominância narrativa global em Modelos de Linguagem Grandes (LLMs), onde o conhecimento cultural local é frequentemente ofuscado por narrativas globais. Introduz o dataset CulturalNB para contextos culturais bengalis e demonstra que perguntas em inglês tendem a promover a substituição global e o enquadramento institucional, diminuindo a cobertura da perspectiva local.

27
RESEARCHarXiv CS.AI·23/04/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Foi introduzido o ThermoQA, um novo benchmark de 293 problemas de termodinâmica de engenharia em três níveis, projetado para avaliar o raciocínio de LLMs. LLMs como Claude Opus 4.6 e GPT-5.4 lideram o placar, mas a degradação entre os níveis revela diferenças nas capacidades de raciocínio termodinâmico, com o conjunto de dados e código sendo de código aberto.

27