← heapsort-ai

Data Annotation

3 items

ARTICLE↑ trendingReddit r/MachineLearning·07/05/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un utilisateur disposant d'un jeu de données de 150 000 images de selles recherche les meilleures pratiques pour entraîner un modèle de vision par ordinateur. Il s'interroge sur son flux de travail actuel de vérification manuelle et cherche des approches plus intelligentes et évolutives pour garantir la qualité du jeu de données et des annotations.

42
RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.

27
RESEARCHarXiv CS.CL·il y a 29j

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

27