Data Annotation

3 items

ARTICLE↑ trendingReddit r/MachineLearning·07/05/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Um usuário com um dataset de 150 mil imagens de fezes busca as melhores práticas para treinar um modelo de visão computacional. Ele questiona seu fluxo de trabalho atual de verificação manual e procura abordagens mais inteligentes e escaláveis para garantir a qualidade do dataset e das anotações.

dataset-quality model training machine learning computer vision

RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

O artigo aborda os desafios de compreender o desacordo entre anotadores em relação às políticas de segurança de IA, que podem surgir de falhas operacionais, ambiguidade de políticas ou pluralismo de valores. Destaca a dificuldade em discernir as causas-raiz desses desacordos e a falta de confiabilidade do raciocínio auto-relatado pelos anotadores.

policy machine learning Data Annotation interpretability

RESEARCHarXiv CS.CL·29d atrás

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D é um novo benchmark de dados de mídia social bengali para diagnosticar o comportamento de LLMs na anotação de conjuntos fechados. A pesquisa revela um fenômeno de "colapso de rótulos induzido por instruções", onde os LLMs preferem rótulos padrão, subdetectando categorias minoritárias.

LLMs Natural Language Processing Data Annotation Benchmarks