← heapsort-ai

datasets

19 items

RESEARCHarXiv CS.AI·vor 1T

CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions

Dieses Papier stellt CrowdMath vor, einen Datensatz von 164 von Experten annotierten Fortschrittsketten aus dem MIT PRIMES--Art of Problem Solving CrowdMath-Programm. Ziel ist es, große Sprachmodelle bei der kollaborativen Lösung offener mathematischer Probleme zu bewerten, abweichend von Benchmarks, die sich auf Endergebnisse oder vollständige Beweise konzentrieren.

40
RESEARCHarXiv CS.CL·vor 1T

HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule

Das HKJudge-Projekt stellt das erste satzweise, von Experten annotierte juristische Diskurskorpus von Hongkonger Strafurteilen vor, das etwa 290.000 Sätze umfasst. Es verwendet ein zweistufiges Diskurschema, um festzuhalten, welche Fakten ein Gericht findet, wie es argumentiert und was es entscheidet, mit hoher Übereinstimmung zwischen den Annotatoren.

40
RESEARCHarXiv CS.LG·vor 19T

MagBridge-Battery: A Synthetic Bridge Dataset for Li-ion Magnetometry and State-of-Health Diagnostics

Diese Forschung stellt MagBridge-Battery v1.0 vor, einen neuen synthetischen Datensatz von 6.760 Magnetfeldsignaturen zur Diagnose des Gesundheitszustands von Lithium-Ionen-Batterien. Er verbindet reale magnetische Morphologie mit Zustand-der-Gesundheit-Etiketten, um dem Mangel an öffentlichen Datensätzen für die Magnetsensorik in Batteriedegradationsstudien zu begegnen.

30
RESEARCHarXiv CS.AI·vor 4T

Synthetic Contrastive Reasoning for Multi-Table Q&A

Die Studie stellt einen synthetischen Kontrastiv-Reasoning-Trace-Datensatz für Multi-Tabellen-Frage-Antwort-Systeme (MMQA) vor, um die in bestehenden Ressourcen fehlende Reasoning-Supervision zu adressieren. Offene LLMs, die mit Contrastive Preference Optimization (CPO) unter Verwendung dieses Datensatzes feinabgestimmt wurden, zeigten signifikante Leistungsverbesserungen.

28
RESEARCHarXiv CS.CL·5/8/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak ist ein neuer synthetischer Datensatz und eine vierstufige Generierungspipeline, die entwickelt wurde, um großen Sprachmodellen (LLMs) den richtigen Zeitpunkt für Interventionen in Mehrparteiengesprächen beizubringen. Es befasst sich mit der Herausforderung, übermäßige Unterbrechungen zu vermeiden und die Konversationskohärenz in Gruppeninteraktionen zu verbessern.

27
RESEARCHarXiv CS.CL·vor 6T

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX ist ein großer mehrsprachiger Benchmark, der eingeführt wurde, um die Herausforderungen idiomatischer Ausdrücke in der natürlichen Sprachverarbeitung anzugehen. Er enthält über 190.000 kontextualisierte Beispiele für über 12.000 Redewendungen mit ausgerichteten semantischen Darstellungen in Englisch, Arabisch und Französisch.

27
ARTICLEDEV.to AI·vor 22T

Medical AI Doesn’t Just Need Bigger Models. It Needs an ImageNet for State Transitions

Dieser Artikel schlägt die Schaffung eines „Biomedical TransitionNet“ vor, eines neuen Datensatztyps, analog zu ImageNet, jedoch fokussiert auf biologische Zustandsübergänge für die nächste Generation der medizinischen KI. Er begründet die Notwendigkeit einer solchen Infrastruktur, um reale Modelle in der Biomedizin zu entwickeln und über Klassifizierung und Vorhersage hinauszugehen.

27
RESEARCHarXiv CS.CL·4/20/2026

"Excuse me, may I say something..." CoLabScience, A Proactive AI Assistant for Biomedical Discovery and LLM-Expert Collaborations

CoLabScience wird als proaktiver LLM-Assistent vorgestellt, der die biomedizinische Entdeckung durch verbesserte Zusammenarbeit zwischen KI und menschlichen Experten beschleunigen soll. Es nutzt PULI, ein neuartiges Reinforcement-Learning-Framework für zeitnahe Interventionen, und führt zudem BSDD, einen neuen Benchmark-Datensatz für simulierte Forschungsdialoge, ein.

27
RESEARCHarXiv CS.CL·5/1/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Dieses Papier stellt BatteryPass-12K vor, den ersten öffentlichen Datensatz für die neuartige Aufgabe der Konformitätsklassifizierung digitaler Batterie-Pässe (DBP), um einen kritischen Bedarf vor den neuen EU-Vorschriften zu decken. Es bewertet 22 Sprachmodelle und zeigt, dass "denkende Modelle" wie GPT-5.4 die beste Leistung erzielen und Few-Shot-Beispiele die Ergebnisse erheblich verbessern.

27
RESEARCHarXiv CS.CL·5/8/2026

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

Dieses Papier schlägt ein evidenzbasiertes Modell vor, um Abfragen aus abfragefreien Zusammenfassungsdatensätzen zu generieren und so die Herausforderung geeigneter Datensätze für die abfragefokussierte Zusammenfassung (QFS) anzugehen. Experimente zeigen, dass Zusammenfassungen, die mit diesen evidenzbasierten Abfragen generiert wurden, wettbewerbsfähige ROUGE-Werte erreichen, was ihre Wirksamkeit für die QFS-Aufgabe unterstützt.

27
RESEARCHarXiv CS.CL·5/4/2026

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

Eine neue Forschung befasst sich mit der Lücke in der Bewertung des kulturellen Denkens in LLMs und stellt ArabCulture-Dialogue vor, einen kulturell fundierten Konversationsdatensatz, der 13 arabischsprachige Länder abdeckt. Experimente zeigen, dass Modelle bei Aufgaben zum kulturellen Denken, zur Übersetzung und zur Generierung in dialektalen Einstellungen schlechter abschneiden als im modernen Standardarabisch.

27
RESEARCHarXiv CS.LG·vor 8T

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval ist ein neuer umfassender Datensatz, der entwickelt wurde, um Große Sprachmodelle (LLMs) für OpenQASM-3-Programme zu trainieren und zu evaluieren, die erweiterte hardwareorientierte Funktionen nutzen. Er schließt eine Lücke in der Fähigkeit von LLMs, die Programmierung von Quantencomputern jenseits der Gate-Sequenz-Schaltungsspezifikation zu handhaben.

27
RESEARCHarXiv CS.LG·vor 14T

A Large-Scale Dataset and Benchmark: Do Protein-Ligand Models Learn Binding Sites or Just Binding Likelihood?

Die Studie stellt InteractBind vor, einen umfangreichen Datensatz von etwa 100.000 Protein-Ligand-Paaren, sowie einen Benchmark zur detaillierten Evaluierung. Ziel ist es zu prüfen, ob Modelle Bindungsstellen lokalisieren und nicht-kovalente Wechselwirkungen identifizieren können, wodurch eine Lücke in bestehenden Bewertungen geschlossen wird.

27