← heapsort-ai

datasets

19 items

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

42
RESEARCHarXiv CS.AI·il y a 1j

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.

40
RESEARCHarXiv CS.CL·il y a 1j

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Le projet HKJudge présente le premier corpus de discours juridique annoté par des experts au niveau des phrases, concernant les jugements criminels de Hong Kong, comprenant environ 290 000 phrases. Il utilise un schéma de discours à deux niveaux pour identifier ce que les tribunaux constatent, comment ils raisonnent et ce qu'ils statuent, avec un accord inter-annotateurs élevé.

40
RESEARCHarXiv CS.LG·il y a 19j

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Cette recherche présente MagBridge-Battery v1.0, un nouveau jeu de données synthétique comprenant 6 760 signatures de champ magnétique pour le diagnostic de la santé des batteries Li-ion. Il comble les données magnétiques réelles avec des étiquettes d'état de santé pour pallier le manque de jeux de données publics pour la détection magnétique dans les études de dégradation des batteries.

30
RESEARCHarXiv CS.AI·il y a 4j

Synthetic Contrastive Reasoning for Multi-Table Q&A

Cet article présente un ensemble de données synthétique de traces de raisonnement contrastif pour la question-réponse multi-tables (MMQA), visant à fournir une supervision de raisonnement absente des ressources existantes. Des LLM open-source, affinés avec l'Optimisation de Préférence Contrastive (CPO) à l'aide de cet ensemble de données, ont montré des améliorations significatives de performance.

28
RESEARCHarXiv CS.CL·08/05/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak est un nouveau jeu de données synthétique et un pipeline de génération en quatre étapes conçu pour enseigner aux grands modèles linguistiques (LLM) le bon moment pour intervenir dans les conversations multipartites. Il aborde le défi d'éviter les interruptions excessives et d'améliorer la cohérence conversationnelle dans les interactions de groupe.

27
ARTICLEDEV.to AI·il y a 22j

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

Cet article propose la création d'un "Biomedical TransitionNet", un nouveau type de jeu de données analogue à ImageNet, mais axé sur les transitions d'états biologiques pour la prochaine génération d'IA médicale. Il soutient la nécessité d'une telle infrastructure pour construire des modèles du monde réel en biomédecine, allant au-delà de la classification et de la prédiction.

27
RESEARCHarXiv CS.CL·20/04/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience est un assistant LLM proactif visant à accélérer la découverte biomédicale en améliorant la collaboration entre l'IA et les experts humains. Il intègre PULI, un cadre d'apprentissage par renforcement pour des interventions contextuelles, et présente BSDD, un nouveau jeu de données de dialogue de recherche simulé.

27
RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Cet article présente BatteryPass-12K, le premier ensemble de données public pour la nouvelle tâche de classification de conformité des passeports numériques de batteries (DBP), répondant à un besoin crucial avant la réglementation de l'UE. Il évalue 22 modèles de langage, montrant que les modèles "pensants" comme GPT-5.4 obtiennent les meilleures performances, et que les exemples few-shot améliorent significativement les résultats.

27
RESEARCHarXiv CS.CL·08/05/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Ce document propose un modèle basé sur des preuves pour générer des requêtes à partir d'ensembles de données de résumé sans requête, répondant au défi de trouver des ensembles de données adaptés pour la synthèse axée sur les requêtes (QFS). Les expériences montrent que les résumés générés à l'aide de ces requêtes basées sur des preuves obtiennent des scores ROUGE compétitifs, soutenant leur efficacité pour la tâche de QFS.

27
RESEARCHarXiv CS.CL·04/05/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Une nouvelle recherche comble le manque d'évaluation du raisonnement culturel dans les LLM en introduisant ArabCulture-Dialogue, un ensemble de données conversationnelles culturellement ancré couvrant 13 pays arabophones. Les expériences montrent que les modèles sont moins performants sur les tâches de raisonnement culturel, de traduction et de génération dans des contextes dialectaux par rapport à l'arabe standard moderne.

27
RESEARCHarXiv CS.LG·il y a 8j

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval est un nouveau jeu de données complet conçu pour entraîner et évaluer les Grands Modèles de Langage (LLMs) sur les programmes OpenQASM-3 impliquant des fonctionnalités avancées orientées matériel. Il comble une lacune dans la capacité des LLMs à gérer la programmation en informatique quantique au-delà de la spécification de circuits à séquences de portes.

27
RESEARCHarXiv CS.LG·il y a 14j

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

Le document présente InteractBind, un vaste ensemble de données d'environ 100 000 paires protéine-ligand, ainsi qu'un benchmark pour une évaluation fine. Il vise à vérifier si les modèles peuvent localiser les sites de liaison et identifier les interactions non covalentes, comblant ainsi une lacune dans les évaluations existantes.

27