datasets

19 items

ARTICLE↑ trendingReddit r/MachineLearning·20/04/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Un chercheur indépendant a créé SGOCR, un pipeline de jeu de données open source axé sur l'OCR et le VQA avec ancrage spatial, pour combler une lacune dans les jeux de données visuels pour l'ancrage de texte dans l'imagerie. Ce pipeline génère des tuples VQA avec des métadonnées riches, supportant diverses stratégies d'entraînement de VLM.

Open Source Vision-Language Models datasets OCR

RESEARCHarXiv CS.AI·il y a 1j

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.

mathematical reasoning LLMs datasets Benchmarks

RESEARCHarXiv CS.CL·il y a 1j

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Le projet HKJudge présente le premier corpus de discours juridique annoté par des experts au niveau des phrases, concernant les jugements criminels de Hong Kong, comprenant environ 290 000 phrases. Il utilise un schéma de discours à deux niveaux pour identifier ce que les tribunaux constatent, comment ils raisonnent et ce qu'ils statuent, avec un accord inter-annotateurs élevé.

natural language processing datasets linguistics legal tech

RESEARCHarXiv CS.LG·il y a 19j

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Cette recherche présente MagBridge-Battery v1.0, un nouveau jeu de données synthétique comprenant 6 760 signatures de champ magnétique pour le diagnostic de la santé des batteries Li-ion. Il comble les données magnétiques réelles avec des étiquettes d'état de santé pour pallier le manque de jeux de données publics pour la détection magnétique dans les études de dégradation des batteries.

Battery Diagnostics State-of-Health Magnetometry Li-ion Batteries

RESEARCHarXiv CS.AI·il y a 4j

Synthetic Contrastive Reasoning for Multi-Table Q&A

Cet article présente un ensemble de données synthétique de traces de raisonnement contrastif pour la question-réponse multi-tables (MMQA), visant à fournir une supervision de raisonnement absente des ressources existantes. Des LLM open-source, affinés avec l'Optimisation de Préférence Contrastive (CPO) à l'aide de cet ensemble de données, ont montré des améliorations significatives de performance.

Question Answering machine learning NLP datasets

RESEARCHHugging Face Blog·il y a 5j

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 présente une version mise à jour d'un benchmark comprenant 3 domaines, 121 outils et 213 scénarios. Cet ensemble de données est conçu pour l'évaluation des systèmes et outils d'IA.

AI benchmarking datasets AI tools AI evaluation

RESEARCHarXiv CS.CL·08/05/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak est un nouveau jeu de données synthétique et un pipeline de génération en quatre étapes conçu pour enseigner aux grands modèles linguistiques (LLM) le bon moment pour intervenir dans les conversations multipartites. Il aborde le défi d'éviter les interruptions excessives et d'améliorer la cohérence conversationnelle dans les interactions de groupe.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.CL·il y a 6j

Translating Classical Poetry into Modern Prose

Padyam2Gadyam est un nouveau jeu de données pour la traduction poème-prose, allant de la poésie classique telugu du XIIIe au XVIIe siècle vers la prose telugu et anglaise contemporaine. L'évaluation de cinq grands modèles de langage sur ce jeu de données a révélé que leur performance globale laisse une grande marge d'amélioration.

poetry LLMs Translation natural language processing

RESEARCHarXiv CS.CL·il y a 6j

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX est un benchmark multilingue à grande échelle introduit pour relever les défis des expressions idiomatiques en traitement du langage naturel. Il contient plus de 190 000 exemples contextualisés couvrant plus de 12 000 idiomes avec des représentations sémantiques alignées en anglais, arabe et français.

language models natural language processing datasets Benchmarks

ARTICLEDEV.to AI·il y a 22j

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

Cet article propose la création d'un "Biomedical TransitionNet", un nouveau type de jeu de données analogue à ImageNet, mais axé sur les transitions d'états biologiques pour la prochaine génération d'IA médicale. Il soutient la nécessité d'une telle infrastructure pour construire des modèles du monde réel en biomédecine, allant au-delà de la classification et de la prédiction.

Biomedical TransitionNet datasets AI infrastructure healthcare AI

RESEARCHarXiv CS.CL·20/04/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience est un assistant LLM proactif visant à accélérer la découverte biomédicale en améliorant la collaboration entre l'IA et les experts humains. Il intègre PULI, un cadre d'apprentissage par renforcement pour des interventions contextuelles, et présente BSDD, un nouveau jeu de données de dialogue de recherche simulé.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·10/05/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA est un nouveau jeu de données conçu pour défier et évaluer les systèmes d'IA en matière de raisonnement visuel et de réponse à des questions compositionnelles. Il vise à faire progresser la compréhension des scènes et l'interaction multimodale dans des scénarios réels.

Question Answering visual reasoning computer vision datasets

RESEARCHDEV.to AI·25/04/2026

JSUT corpus: free large-scale Japanese speech corpus for end-to-end speechsynthesis

Le corpus JSUT est un ensemble de données de parole japonais gratuit et à grande échelle, conçu pour la recherche en synthèse vocale de bout en bout. Il fournit des ressources précieuses pour le développement de modèles d'IA avancés dans la technologie de la parole pour la langue japonaise.

japanese language speech synthesis machine learning natural language processing

DOCHugging Face (YouTube)·il y a 7j

How to Create an LLM Dataset | FineWeb Overview

Ce contenu propose un guide sur la création de jeux de données pour les grands modèles linguistiques (LLM). Il comprend un aperçu de FineWeb, une ressource pertinente pour ce processus.

learning datasets AI development FineWeb

How to Create an LLM Dataset | FineWeb Overview

RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Cet article présente BatteryPass-12K, le premier ensemble de données public pour la nouvelle tâche de classification de conformité des passeports numériques de batteries (DBP), répondant à un besoin crucial avant la réglementation de l'UE. Il évalue 22 modèles de langage, montrant que les modèles "pensants" comme GPT-5.4 obtiennent les meilleures performances, et que les exemples few-shot améliorent significativement les résultats.

evaluation Benchmarking natural language processing datasets

RESEARCHarXiv CS.CL·08/05/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Ce document propose un modèle basé sur des preuves pour générer des requêtes à partir d'ensembles de données de résumé sans requête, répondant au défi de trouver des ensembles de données adaptés pour la synthèse axée sur les requêtes (QFS). Les expériences montrent que les résumés générés à l'aide de ces requêtes basées sur des preuves obtiennent des scores ROUGE compétitifs, soutenant leur efficacité pour la tâche de QFS.

query generation natural language processing datasets summarization

RESEARCHarXiv CS.CL·04/05/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Une nouvelle recherche comble le manque d'évaluation du raisonnement culturel dans les LLM en introduisant ArabCulture-Dialogue, un ensemble de données conversationnelles culturellement ancré couvrant 13 pays arabophones. Les expériences montrent que les modèles sont moins performants sur les tâches de raisonnement culturel, de traduction et de génération dans des contextes dialectaux par rapport à l'arabe standard moderne.

LLMs Arabic dialects cultural reasoning Benchmarking

RESEARCHarXiv CS.LG·il y a 8j

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval est un nouveau jeu de données complet conçu pour entraîner et évaluer les Grands Modèles de Langage (LLMs) sur les programmes OpenQASM-3 impliquant des fonctionnalités avancées orientées matériel. Il comble une lacune dans la capacité des LLMs à gérer la programmation en informatique quantique au-delà de la spécification de circuits à séquences de portes.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·il y a 14j

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

Le document présente InteractBind, un vaste ensemble de données d'environ 100 000 paires protéine-ligand, ainsi qu'un benchmark pour une évaluation fine. Il vise à vérifier si les modèles peuvent localiser les sites de liaison et identifier les interactions non covalentes, comblant ainsi une lacune dans les évaluations existantes.

molecular modeling Benchmarking drug discovery datasets