datasets

19 items

ARTICLE↑ trendingReddit r/MachineLearning·4/20/2026

SGOCR: A Spatially-Grounded OCR-focused Pipeline & V1 Dataset [P]

Ein unabhängiger Forscher entwickelte SGOCR, eine quelloffene Dataset-Pipeline für räumlich geerdetes, OCR-fokussiertes VQA, um eine Lücke in visuellen Datensätzen für die Textverankerung in Bildern zu schließen. Diese Pipeline generiert VQA-Tupel mit reichhaltigen Metadaten, die diverse VLM-Trainingsstrategien unterstützen.

Open Source Vision-Language Models datasets OCR

RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

mathematical reasoning LLMs datasets Benchmarks

RESEARCHarXiv CS.CL·vor 1T

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Das HKJudge-Projekt stellt das erste satzweise, von Experten annotierte juristische Diskurskorpus von Hongkonger Strafurteilen vor, das etwa 290.000 Sätze umfasst. Es verwendet ein zweistufiges Diskurschema, um festzuhalten, welche Fakten ein Gericht findet, wie es argumentiert und was es entscheidet, mit hoher Übereinstimmung zwischen den Annotatoren.

natural language processing datasets linguistics legal tech

RESEARCHarXiv CS.LG·vor 19T

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Diese Forschung stellt MagBridge-Battery v1.0 vor, einen neuen synthetischen Datensatz von 6.760 Magnetfeldsignaturen zur Diagnose des Gesundheitszustands von Lithium-Ionen-Batterien. Er verbindet reale magnetische Morphologie mit Zustand-der-Gesundheit-Etiketten, um dem Mangel an öffentlichen Datensätzen für die Magnetsensorik in Batteriedegradationsstudien zu begegnen.

Battery Diagnostics State-of-Health Magnetometry Li-ion Batteries

RESEARCHarXiv CS.AI·vor 4T

Synthetic Contrastive Reasoning for Multi-Table Q&A

Die Studie stellt einen synthetischen Kontrastiv-Reasoning-Trace-Datensatz für Multi-Tabellen-Frage-Antwort-Systeme (MMQA) vor, um die in bestehenden Ressourcen fehlende Reasoning-Supervision zu adressieren. Offene LLMs, die mit Contrastive Preference Optimization (CPO) unter Verwendung dieses Datensatzes feinabgestimmt wurden, zeigten signifikante Leistungsverbesserungen.

Question Answering machine learning NLP datasets

RESEARCHHugging Face Blog·vor 5T

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 stellt eine aktualisierte Benchmark-Version mit 3 Domänen, 121 Tools und 213 Szenarien vor. Dieser Datensatz ist für die Bewertung von KI-Systemen und -Tools konzipiert.

AI benchmarking datasets AI tools AI evaluation

RESEARCHarXiv CS.CL·5/8/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak ist ein neuer synthetischer Datensatz und eine vierstufige Generierungspipeline, die entwickelt wurde, um großen Sprachmodellen (LLMs) den richtigen Zeitpunkt für Interventionen in Mehrparteiengesprächen beizubringen. Es befasst sich mit der Herausforderung, übermäßige Unterbrechungen zu vermeiden und die Konversationskohärenz in Gruppeninteraktionen zu verbessern.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.CL·vor 6T

Translating Classical Poetry into Modern Prose

Padyam2Gadyam ist ein neuer Datensatz für die Gedicht-zu-Prosa-Übersetzung von klassischer Telugu-Poesie aus dem 13.-17. Jahrhundert in zeitgenössische Telugu- und englische Prosa. Die Bewertung von fünf großen Sprachmodellen zeigte, dass ihre Gesamtleistung in beiden Sprachen noch viel Raum für Verbesserungen lässt.

poetry LLMs Translation natural language processing

RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

language models natural language processing datasets Benchmarks

ARTICLEDEV.to AI·vor 22T

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

Dieser Artikel schlägt die Schaffung eines „Biomedical TransitionNet“ vor, eines neuen Datensatztyps, analog zu ImageNet, jedoch fokussiert auf biologische Zustandsübergänge für die nächste Generation der medizinischen KI. Er begründet die Notwendigkeit einer solchen Infrastruktur, um reale Modelle in der Biomedizin zu entwickeln und über Klassifizierung und Vorhersage hinauszugehen.

Biomedical TransitionNet datasets AI infrastructure healthcare AI

RESEARCHarXiv CS.CL·4/20/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience wird als proaktiver LLM-Assistent vorgestellt, der die biomedizinische Entdeckung durch verbesserte Zusammenarbeit zwischen KI und menschlichen Experten beschleunigen soll. Es nutzt PULI, ein neuartiges Reinforcement-Learning-Framework für zeitnahe Interventionen, und führt zudem BSDD, einen neuen Benchmark-Datensatz für simulierte Forschungsdialoge, ein.

LLMs AI collaboration reinforcement learning datasets

RESEARCHDEV.to AI·5/10/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA ist ein neues Dataset, das entwickelt wurde, um KI-Systeme im visuellen Denken und bei der Beantwortung kompositioneller Fragen herauszufordern und zu bewerten. Es zielt darauf ab, das Szenenverständnis und die multimodale Interaktion in realen Szenarien voranzutreiben.

Question Answering visual reasoning computer vision datasets

RESEARCHDEV.to AI·4/25/2026

JSUT corpus: free large-scale Japanese speech corpus for end-to-end speechsynthesis

Der JSUT-Korpus ist ein kostenloser, großer japanischer Sprachdatensatz, der für die End-to-End-Sprachsyntheseforschung entwickelt wurde. Er bietet wertvolle Ressourcen für die Entwicklung fortschrittlicher KI-Modelle in der Sprachtechnologie für die japanische Sprache.

japanese language speech synthesis machine learning natural language processing

DOCHugging Face (YouTube)·vor 7T

How to Create an LLM Dataset | FineWeb Overview

Dieser Inhalt bietet eine Anleitung zum Erstellen von Datensätzen für Große Sprachmodelle (LLMs). Er enthält eine Übersicht über FineWeb, eine relevante Ressource für diesen Prozess.

learning datasets AI development FineWeb

How to Create an LLM Dataset | FineWeb Overview

RESEARCHarXiv CS.CL·5/1/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Dieses Papier stellt BatteryPass-12K vor, den ersten öffentlichen Datensatz für die neuartige Aufgabe der Konformitätsklassifizierung digitaler Batterie-Pässe (DBP), um einen kritischen Bedarf vor den neuen EU-Vorschriften zu decken. Es bewertet 22 Sprachmodelle und zeigt, dass "denkende Modelle" wie GPT-5.4 die beste Leistung erzielen und Few-Shot-Beispiele die Ergebnisse erheblich verbessern.

evaluation Benchmarking natural language processing datasets

RESEARCHarXiv CS.CL·5/8/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Dieses Papier schlägt ein evidenzbasiertes Modell vor, um Abfragen aus abfragefreien Zusammenfassungsdatensätzen zu generieren und so die Herausforderung geeigneter Datensätze für die abfragefokussierte Zusammenfassung (QFS) anzugehen. Experimente zeigen, dass Zusammenfassungen, die mit diesen evidenzbasierten Abfragen generiert wurden, wettbewerbsfähige ROUGE-Werte erreichen, was ihre Wirksamkeit für die QFS-Aufgabe unterstützt.

query generation natural language processing datasets summarization

RESEARCHarXiv CS.CL·5/4/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Eine neue Forschung befasst sich mit der Lücke in der Bewertung des kulturellen Denkens in LLMs und stellt ArabCulture-Dialogue vor, einen kulturell fundierten Konversationsdatensatz, der 13 arabischsprachige Länder abdeckt. Experimente zeigen, dass Modelle bei Aufgaben zum kulturellen Denken, zur Übersetzung und zur Generierung in dialektalen Einstellungen schlechter abschneiden als im modernen Standardarabisch.

LLMs Arabic dialects cultural reasoning Benchmarking

RESEARCHarXiv CS.LG·vor 8T

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval ist ein neuer umfassender Datensatz, der entwickelt wurde, um Große Sprachmodelle (LLMs) für OpenQASM-3-Programme zu trainieren und zu evaluieren, die erweiterte hardwareorientierte Funktionen nutzen. Er schließt eine Lücke in der Fähigkeit von LLMs, die Programmierung von Quantencomputern jenseits der Gate-Sequenz-Schaltungsspezifikation zu handhaben.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·vor 14T

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

Die Studie stellt InteractBind vor, einen umfangreichen Datensatz von etwa 100.000 Protein-Ligand-Paaren, sowie einen Benchmark zur detaillierten Evaluierung. Ziel ist es zu prüfen, ob Modelle Bindungsstellen lokalisieren und nicht-kovalente Wechselwirkungen identifizieren können, wodurch eine Lücke in bestehenden Bewertungen geschlossen wird.

molecular modeling Benchmarking drug discovery datasets