Data Annotation

3 items

ARTICLE↑ trendingReddit r/MachineLearning·7/5/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un usuario con un dataset de 150 mil imágenes de heces busca las mejores prácticas para entrenar un modelo de visión artificial. Cuestiona su flujo de trabajo actual de verificación manual y busca enfoques más inteligentes y escalables para garantizar la calidad del dataset y las anotaciones.

dataset-quality model training machine learning computer vision

RESEARCHarXiv CS.AI·9/5/2026

Understanding Annotator Safety Policy with Interpretability

El artículo presenta desafíos para comprender el desacuerdo de los anotadores sobre las políticas de seguridad de la IA, que pueden surgir de fallas operativas, ambigüedad de políticas o pluralismo de valores. Destaca la dificultad de discernir las causas fundamentales de estos desacuerdos y la falta de fiabilidad del razonamiento autoinformado por los anotadores.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.CL·hace 29d

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D es un nuevo benchmark de datos de redes sociales bengalíes para diagnosticar el comportamiento de los LLM en la anotación de conjuntos cerrados. La investigación revela un fenómeno de "colapso de etiquetas inducido por instrucciones", donde los LLM prefieren sistemáticamente etiquetas de respaldo, subdetectando categorías minoritarias.

LLMs Natural Language Processing Data Annotation Benchmarks