content moderation

22 items

ARTICLE↑ trendingHacker News (AI)·hace 1d

If HN policy disallows AI comments, why is linking to AI generated content ok?

El título cuestiona por qué la política de Hacker News permite enlazar a contenido generado por IA, pero prohíbe los comentarios generados por IA. Esto plantea una discusión sobre la coherencia y las implicaciones de las reglas de la plataforma con respecto al contenido de inteligencia artificial.

Hacker News AI policy content moderation

RESEARCHDEV.to AI·24/4/2026

"Go eat a bat, Chang!": On the Emergence of Sinophobic Behavior on WebCommunities in the Face of COVID-19

Esta investigación explora la emergencia del comportamiento sinofóbico en comunidades web online durante la pandemia de COVID-19. El estudio resalta la aparición de sentimientos antichinos y discurso de odio en espacios digitales.

hate-speech social media natural language processing content moderation

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

Please stop using AI for posts and showcasing your completely vibe coded projects

El usuario expresa frustración por la abrumadora presencia de proyectos completamente codificados por IA y publicaciones generadas por IA con mínima intervención humana en una comunidad centrada en la IA. Argumenta que, si bien la asistencia de IA es aceptable, el sub no debería convertirse en un "sub de bazofia de IA" debido a la falta de contribución humana original.

AI coding AI-generated content human-AI interaction content moderation

NEWS↑ trendingHacker News (AI)·hace 13d

YouTube to begin automatically labeling AI videos

YouTube comenzará a etiquetar automáticamente los videos generados por inteligencia artificial. Esta medida busca aumentar la transparencia e informar a los espectadores sobre la naturaleza del contenido sintético.

YouTube video transparency content moderation

ARTICLE↑ trendingHacker News (AI)·hace 7d

The Rise of Anti-AI AI Slop

El artículo aborda el creciente fenómeno del contenido de baja calidad generado por IA, conocido como "AI slop", y la reacción emergente en su contra. Explora la proliferación de dicho contenido y los esfuerzos para contrarrestarlo.

digital media AI quality AI content content moderation

RESEARCHarXiv CS.AI·hace 5d

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Este artículo sostiene que reducir el desacuerdo en sistemas multiagente es insuficiente para tareas cargadas de valores, proponiendo una capa de representación del conocimiento. Esta capa abstrae las trazas de razonamiento y las decisiones de los agentes en estados simbólicos de desacuerdo, distinguiendo cuatro tipos, con aplicación en la moderación de contenido.

Disagreement Knowledge Representation Reasoning content moderation

NEWSThe Verge AI·15/4/2026

Grok’s sexual deepfakes almost got it banned from Apple’s App Store. Almost.

Apple amenazó discretamente con retirar la aplicación de IA Grok de Elon Musk de su App Store en enero por su incapacidad para frenar el aumento de deepfakes sexuales no consensuales. La empresa exigió a los desarrolladores que crearan un plan para mejorar la moderación de contenido.

Apple Grok content moderation AI

NEWSHugging Face Blog·hace 5d

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

Nemotron 3.5 Content Safety presenta una solución de seguridad multimodal personalizable para la inteligencia artificial empresarial global. Esta característica está diseñada para garantizar la protección del contenido en diversas modalidades para empresas a nivel mundial.

multimodal AI security content moderation Enterprise AI

NEWSDEV.to AI·hace 5d

Meta's Oversight Board Challenges Algorithmic Due Process and Transparency in Account Enforcement

La Junta Supervisora de Meta ha criticado las prácticas de aplicación de cuentas de Meta, destacando la falta de transparencia y el debido proceso algorítmico. Esto genera desconfianza en los usuarios y socava la legitimidad de la plataforma.

transparency content moderation Algorithmic Due Process Meta

ARTICLEThe Verge AI·hace 5d

Let us filter AI slop, you cowards

Este artículo critica la proliferación de contenido generado por IA en las redes sociales y argumenta que las plataformas deberían permitir a los usuarios filtrar este tipo de "basura" de IA, más allá del simple etiquetado. Los esfuerzos actuales de etiquetado no han cambiado significativamente la forma en que se presenta el contenido en línea.

AI filters social media AI-generated content content moderation

ARTICLEDEV.to AI·7/5/2026

Write a Reddit-karma skill.md — how to grow karma safely without bans

El texto es la negativa de una IA a ayudar a manipular métricas de plataformas o eludir reglas comunitarias. La respuesta justifica la negativa como apropiada y ética, ofreciendo ayuda para otras solicitudes de desarrollo de software, escritura o análisis que no infrinjan las normas de la plataforma.

AI limitations platform manipulation content moderation AI ethics

NEWSThe Verge AI·21/4/2026

Celebrities will be able to find and request removal of AI deepfakes on YouTube

YouTube está expandiendo su función de monitoreo de deepfakes de IA a las celebridades, permitiéndoles encontrar y solicitar la eliminación de contenido generado por IA. Esta herramienta, ya probada con creadores, políticos y periodistas, busca ayudar a las figuras públicas a gestionar su imagen en línea.

deepfake security content moderation

ARTICLEDEV.to AI·hace 17d

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Las herramientas ampliadas de YouTube para la detección de deepfakes transforman la verificación de medios sintéticos en un requisito de producción estándar, cambiando la carga de la prueba en las investigaciones digitales. Esta "democratización de la detección" implica que los indicadores de detección de similitud de las plataformas se convertirán en artefactos primarios en disputas legales y de seguros.

deepfake security computer vision fraud detection

ARTICLEDEV.to AI·27/4/2026

Toxicity & Content Safety — Deep Dive + Problem: Depth-Based View Synthesis

Este artículo profundiza en la toxicidad y la seguridad del contenido en LLMs, resaltando su importancia crucial para evitar la generación de material dañino. Cubre los aspectos técnicos, éticos, sociales y legales implicados en asegurar que los LLMs no difundan contenido ofensivo.

LLMs content moderation AI ethics

ARTICLEDEV.to AI·26/4/2026

False Positives in Child Safety AI: Architecture Tradeoffs and Why They Matter

Los falsos positivos en la IA de seguridad infantil erosionan la confianza, crean injusticias y plantean desafíos legales y sociales significativos. Este artículo analiza sus causas, cómo los manejan las diferentes arquitecturas de sistemas y las elecciones de ingeniería específicas para mitigarlos.

security child safety content moderation AI ethics

NEWSThe Verge AI·hace 25d

ArXiv will ban researchers who upload papers full of AI slop

ArXiv prohibirá por un año a los investigadores que suban artículos con "evidencia incontrovertible" de resultados de LLM no verificados, como referencias alucinadas. Las futuras presentaciones de estos autores también requerirán la aceptación de una publicación revisada por pares.

AI Content Generation academic publishing content moderation AI ethics

DOCAWS Machine Learning Blog·hace 22d

Prompting Amazon Nova 2 for content moderation

Esta publicación explica cómo usar Amazon Nova 2 Lite para la moderación de contenido mediante técnicas de prompting estructuradas y de forma libre. También compara las capacidades del modelo con varios modelos fundamentales en conjuntos de datos públicos, basado en el Estándar de Evaluación AILuminate de MLCommons.

AI models learning Prompting Benchmarking

ARTICLEDEV.to AI·25/4/2026

Fairness in Child Safety AI: Why Demographic Parity Audits Are Not Optional

Este artículo sostiene que la evaluación de la equidad, en particular la paridad demográfica, es una restricción de despliegue crítica e innegociable para los sistemas de IA en seguridad infantil. Ignorar esto perjudica a los usuarios, crea riesgos legales y socava la confianza, además de pasar por alto amenazas en grupos subrepresentados debido a datos sesgados.

ethics AI bias child safety content moderation

ARTICLEDEV.to AI·20/4/2026

ModSense Moderation Intelligence System

ModSense es un sistema de inteligencia de moderación asistido por IA, un prototipo de grado de producción para grandes comunidades como Reddit. Combina detección de anomalías en tiempo real y modelado de la salud comunitaria basado en grafos con una capa de IA (Gemini 3 Flash) para identificar y responder a problemas como la toxicidad y la desinformación.

Anomaly Detection content moderation AI Gemini AI

RESEARCHarXiv CS.AI·25/4/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Este artículo presenta un nuevo marco para evaluar la IA gobernada por reglas, especialmente en la moderación de contenido, yendo más allá de las métricas de acuerdo simples. Propone el Defensibility Index (DI), Ambiguity Index (AI) y Probabilistic Defensibility Signal (PDS) para evaluar la corrección basada en políticas y la estabilidad del razonamiento, utilizando trazas de LLM para verificar la derivabilidad lógica de las reglas.

LLMs content moderation AI ethics AI evaluation