Data Annotation

3 items

ARTICLE↑ trendingReddit r/MachineLearning·5/7/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Ein Benutzer mit einem Datensatz von 150.000 Stuhlbildern sucht nach Best Practices für das Training eines Computer-Vision-Modells. Er hinterfragt seinen aktuellen manuellen Überprüfungsworkflow und sucht nach intelligenteren, skalierbareren Ansätzen zur Sicherstellung der Daten- und Annotationsqualität.

dataset-quality model training machine learning computer vision

RESEARCHarXiv CS.AI·5/9/2026

Understanding Annotator Safety Policy with Interpretability

Die Arbeit stellt Herausforderungen beim Verständnis von Uneinigkeiten der Annotatoren hinsichtlich der KI-Sicherheitspolitiken vor, die aus Betriebsfehlern, Richtlinienzweideutigkeit oder Wertepluralismus resultieren können. Sie hebt die Schwierigkeit hervor, die Ursachen dieser Meinungsverschiedenheiten zu erkennen, sowie die Unzuverlässigkeit selbstberichteter Begründungen der Annotatoren.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.CL·vor 29T

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D ist ein neuer Benchmark für bengalische Social-Media-Daten, der das Verhalten von LLMs bei der Closed-Set-Annotation diagnostizieren soll. Die Untersuchung zeigt ein Phänomen namens „anweisungsinduzierter Label-Kollaps“, bei dem LLMs Standard-Labels bevorzugen und Minderheitskategorien untererfassen.

LLMs Natural Language Processing Data Annotation Benchmarks