content moderation

22 items

ARTICLE↑ trendingHacker News (AI)·vor 1T

If HN policy disallows AI comments, why is linking to AI generated content ok?

Der Titel hinterfragt, warum die Hacker News-Richtlinie das Verlinken auf KI-generierte Inhalte erlaubt, aber KI-generierte Kommentare untersagt. Dies wirft eine Diskussion über die Konsistenz und die Auswirkungen der Plattformregeln bezüglich künstlicher Intelligenz-Inhalte auf.

Hacker News AI policy content moderation

RESEARCHDEV.to AI·4/24/2026

"Go eat a bat, Chang!": On the Emergence of Sinophobic Behavior on WebCommunities in the Face of COVID-19

Diese Untersuchung erforscht das Auftreten sinophober Verhaltensweisen in Online-Web-Communities während der COVID-19-Pandemie. Sie beleuchtet Fälle von antichinesischen Stimmungen und damit verbundener Hassrede in digitalen Räumen.

hate-speech social media Natural Language Processing content moderation

ARTICLE↑ trendingReddit r/LocalLLaMA·4/14/2026

Please stop using AI for posts and showcasing your completely vibe coded projects

Der Nutzer äußert Frustration über die überwältigende Präsenz vollständig KI-codierter Projekte und KI-generierter Beiträge mit minimalem menschlichen Input in einer KI-fokussierten Community. Sie argumentieren, dass KI-Unterstützung zwar akzeptabel ist, der Sub jedoch aufgrund mangelnder origineller menschlicher Beiträge nicht zu einem „KI-Brei-Sub“ werden sollte.

AI coding AI-generated content human-AI interaction content moderation

NEWS↑ trendingHacker News (AI)·vor 13T

YouTube to begin automatically labeling AI videos

YouTube wird damit beginnen, KI-generierte Videos automatisch zu kennzeichnen. Diese Maßnahme soll die Transparenz erhöhen und die Zuschauer über die Art der synthetischen Inhalte informieren.

YouTube video transparency content moderation

ARTICLE↑ trendingHacker News (AI)·vor 7T

The Rise of Anti-AI AI Slop

Dieser Artikel behandelt das wachsende Phänomen minderwertiger, von KI generierter Inhalte, genannt „AI Slop“, und die aufkommende Gegenreaktion darauf. Er untersucht die Verbreitung solcher Inhalte und die Bemühungen, ihnen entgegenzuwirken.

digital media AI quality AI content content moderation

RESEARCHarXiv CS.AI·vor 5T

Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal

Dieser Artikel argumentiert, dass die Reduzierung von Meinungsverschiedenheiten in Multi-Agenten-Systemen für wertebehaftete Aufgaben unzureichend ist, und schlägt eine Wissensrepräsentationsschicht vor. Diese Schicht abstrahiert Argumentationsspuren und Agentenentscheidungen in symbolische Meinungsverschiedenheitszustände, wobei vier Typen unterschieden werden, mit Anwendung in der Inhaltsmoderation.

Disagreement Knowledge Representation Reasoning content moderation

NEWSThe Verge AI·4/15/2026

Grok’s sexual deepfakes almost got it banned from Apple’s App Store. Almost.

Apple drohte im Januar stillschweigend damit, Elon Musks KI-App Grok aus dem App Store zu entfernen, weil sie den Anstieg nicht einvernehmlicher sexueller Deepfakes nicht eindämmen konnte. Das Unternehmen forderte von den Entwicklern, einen Plan zur Verbesserung der Inhaltsmoderation zu erstellen.

Apple Grok content moderation AI

NEWSHugging Face Blog·vor 5T

Nemotron 3.5 Content Safety: Customizable Multimodal Safety for Global Enterprise AI

Nemotron 3.5 Content Safety stellt eine anpassbare multimodale Sicherheitslösung für globale Unternehmens-KI vor. Diese Funktion wurde entwickelt, um den Inhaltsschutz über verschiedene Modalitäten hinweg für Unternehmen weltweit zu gewährleisten.

multimodal AI security content moderation Enterprise AI

NEWSDEV.to AI·vor 5T

Meta's Oversight Board Challenges Algorithmic Due Process and Transparency in Account Enforcement

Metas Aufsichtsrat hat Metas Kontendurchsetzungsverfahren kritisiert und einen Mangel an Transparenz und algorithmischem Due Process hervorgehoben. Dies führt zu Misstrauen bei den Nutzern und untergräbt die Legitimität der Plattform.

transparency content moderation Algorithmic Due Process Meta

ARTICLEDEV.to AI·5/7/2026

Write a Reddit-karma skill.md — how to grow karma safely without bans

Der Text ist die Weigerung einer KI, bei der Manipulation von Plattformmetriken oder der Umgehung von Community-Regeln zu helfen. Die Antwort begründet die Ablehnung als angemessen und ethisch korrekt und bietet Hilfe für andere Anfragen zu Softwareentwicklung, Schreiben oder Analyse an, die keine Plattformregeln verletzen.

AI limitations platform manipulation content moderation AI ethics

ARTICLEThe Verge AI·vor 5T

Let us filter AI slop, you cowards

Dieser Artikel kritisiert die Verbreitung von KI-generierten Inhalten in sozialen Medien und fordert, dass Plattformen es Nutzern ermöglichen sollten, diesen "KI-Müll" herauszufiltern, anstatt ihn nur zu kennzeichnen. Aktuelle Kennzeichnungsbemühungen haben die Präsentation von Inhalten online nicht wesentlich verändert.

AI filters social media AI-generated content content moderation

NEWSThe Verge AI·4/21/2026

Celebrities will be able to find and request removal of AI deepfakes on YouTube

YouTube erweitert seine KI-Deepfake-Überwachungsfunktion auf Prominente, damit diese KI-generierte Deepfake-Inhalte finden und deren Entfernung beantragen können. Dieses Tool, bereits für Creator, Politiker und Journalisten verfügbar, soll öffentlichen Personen helfen, ihr Online-Image zu schützen.

deepfake security content moderation

ARTICLEDEV.to AI·vor 17T

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Die erweiterten Deepfake-Erkennungstools von YouTube verwandeln die Verifizierung synthetischer Medien in eine Standardproduktionsanforderung und verschieben die Beweislast bei digitalen Ermittlungen. Diese "Demokratisierung der Erkennung" bedeutet, dass Plattform-Ähnlichkeitserkennungs-Flags zu primären Artefakten in Rechts- und Versicherungsstreitigkeiten werden.

deepfake security computer vision fraud detection

ARTICLEDEV.to AI·4/27/2026

Toxicity & Content Safety — Deep Dive + Problem: Depth-Based View Synthesis

Dieser Artikel untersucht die Toxizität und Inhaltssicherheit bei LLMs, betont deren entscheidende Bedeutung zur Vermeidung der Generierung schädlicher Inhalte. Er behandelt die technischen, ethischen, sozialen und rechtlichen Aspekte, um sicherzustellen, dass LLMs keine beleidigenden Inhalte verbreiten.

LLMs content moderation AI ethics

ARTICLEDEV.to AI·4/26/2026

False Positives in Child Safety AI: Architecture Tradeoffs and Why They Matter

Fehlalarme in KI-Kinderschutzsystemen untergraben das Vertrauen, führen zu Ungerechtigkeiten und stellen erhebliche rechtliche und soziale Herausforderungen dar. Dieser Artikel analysiert deren Ursachen, wie verschiedene Systemarchitekturen damit umgehen und spezifische technische Entscheidungen zu ihrer Minderung.

security child safety content moderation AI ethics

NEWSThe Verge AI·vor 25T

ArXiv will ban researchers who upload papers full of AI slop

ArXiv wird Forscher ein Jahr lang sperren, wenn ihre Artikel "unwiderlegbare Beweise" für ungeprüfte LLM-Generierung, wie halluzinierte Referenzen, enthalten. Zukünftige Einreichungen dieser Autoren benötigen zudem die Annahme durch eine anerkannte Fachzeitschrift.

AI Content Generation academic publishing content moderation AI ethics

DOCAWS Machine Learning Blog·vor 22T

Prompting Amazon Nova 2 for content moderation

Dieser Beitrag zeigt, wie Amazon Nova 2 Lite für die Inhaltsmoderation mittels strukturierter und freier Prompting-Ansätze genutzt werden kann. Es werden auch die Moderationsfähigkeiten von Amazon Nova 2 Lite mit mehreren Basismodellen auf drei öffentlichen Datensätzen verglichen, basierend auf dem MLCommons AILuminate Assessment Standard.

AI models learning Prompting Benchmarking

ARTICLEDEV.to AI·4/25/2026

Fairness in Child Safety AI: Why Demographic Parity Audits Are Not Optional

Dieser Artikel argumentiert, dass die Fairnessbewertung, insbesondere die demografische Parität, eine kritische und nicht verhandelbare Einsatzbeschränkung für KI-Systeme im Kinderschutz darstellt. Das Ignorieren dieser Problematik schädigt Benutzer, birgt rechtliche Risiken und untergräbt das Vertrauen, während gleichzeitig Bedrohungen in unterrepräsentierten Gruppen aufgrund voreingenommener Daten übersehen werden.

ethics AI bias child safety content moderation

ARTICLEDEV.to AI·4/20/2026

ModSense Moderation Intelligence System

ModSense ist ein KI-gestütztes Moderations-Intelligenzsystem, ein produktionsreifer Prototyp für große Gemeinschaften wie Reddit. Es kombiniert Echtzeit-Anomalieerkennung und graphenbasierte Community-Gesundheitsmodellierung mit einer KI-Schicht (Gemini 3 Flash), um Probleme wie Toxizität und Desinformation zu erkennen und darauf zu reagieren.

Anomaly Detection content moderation AI Gemini AI

RESEARCHarXiv CS.AI·4/25/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Dieses Papier stellt ein neues Framework zur Bewertung regelbasierter KI vor, insbesondere in der Inhaltsmoderation, das über einfache Übereinstimmungsmetriken hinausgeht. Es schlägt den Defensibility Index (DI), Ambiguity Index (AI) und Probabilistic Defensibility Signal (PDS) vor, um die politikbasierte Korrektheit und die Stabilität des Denkens zu bewerten, indem LLM-Begründungsspuren zur Überprüfung der logischen Ableitbarkeit aus Regeln genutzt werden.

LLMs content moderation AI ethics AI evaluation