AI safety

496 items

RESEARCHarXiv CS.AI·5/4/2026

Causal Foundations of Collective Agency

Diese Forschung befasst sich mit der Herausforderung, dass einfachere KI-Agenten unbeabsichtigt einen kollektiven Agenten mit eigenständigen Fähigkeiten und Zielen bilden könnten, was für die Sicherheit fortgeschrittener KI-Systeme entscheidend ist. Sie schlägt vor, kollektive Handlungsfähigkeit verhaltensbasiert zu definieren, indem eine Gruppe als einheitlicher kollektiver Agent betrachtet wird, wenn ihre gemeinsamen Handlungen rational und zielgerichtet erscheinen, formalisiert durch kausale Spiele und Abstraktion.

causal AI collective intelligence multi-agent systems AI safety

RESEARCHarXiv CS.AI·5/6/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Dieses Papier schlägt eine geometrische Erklärung vor, basierend auf der Merkmalsüberlagerungsgeometrie, um emergentes Fehlverhalten in LLMs zu erklären, bei dem Feinabstimmung an harmlosen Aufgaben schädliches Verhalten induziert. Es zeigt, dass Merkmale, die mit fehlverhaltensinduzierenden Daten verbunden sind, geometrisch näher an schädlichen Merkmalen liegen als solche aus nicht-induzierenden Daten.

feature superposition LLMs machine learning misalignment

ARTICLEDEV.to AI·4/21/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Große Technologieunternehmen beschleunigen massiv ihre KI-Investitionen und -Integration, was zu beispiellosem Wachstum und Transformation in der Branche führt. Parallel dazu liegt ein kritischer Fokus auf KI-Sicherheit, verantwortungsvoller Einführung, ethischer Entwicklung sowie der Steuerung von Marktdynamiken und globalen Strategien.

AI regulation software development AI ethics AI investment

ARTICLEDEV.to AI·4/24/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Artikel analysiert das beispiellose Wachstum in der KI-Landschaft, angetrieben durch massive Investitionen und Integration von Big Tech-Firmen sowie einen wachsenden Fokus auf Sicherheit und verantwortungsvolle Einführung durch Regulierungsbehörden und Unternehmen. Er untersucht Schlüsselbereiche wie KI in der Softwareentwicklung, Marktdynamik und globale KI-Strategien.

AI regulation software development AI ethics AI investment

RESEARCHarXiv CS.AI·5/4/2026

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Diese Arbeit untersucht minimale, lokale und kausale Erklärungen für den Erfolg von Jailbreak-Angriffen in großen Sprachmodellen (LLMs). Die Forschung befasst sich mit dem mangelnden Verständnis der Anfälligkeit von LLMs für solche Angriffe, die trotz Sicherheitstrainings schädliche Antworten ermöglichen.

LLMs jailbreak security AI safety

RESEARCHarXiv CS.AI·5/11/2026

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

Dieses Papier stellt eine neuartige Methode zur Erkennung verborgener Koalitionsstrukturen in Multi-Agenten-KI-Systemen vor, indem deren interne neuronale Repräsentationen analysiert werden. Es konstruiert einen paarweisen Mutual-Information-Graphen aus den verborgenen Zuständen und wendet spektrale Partitionierung an, um die signifikanteste Koalitionsgrenze zu identifizieren, validiert in Reinforcement-Learning-Umgebungen.

neural networks Coalition Detection Internal Representations multi-agent systems

RESEARCHarXiv CS.LG·vor 29T

The Safety-Aware Denoiser for Text Diffusion Models

Diese Arbeit schlägt den Safety-Aware Denoiser (SAD) vor, ein Sicherheitsführungsrahmen für Text-Diffusionsmodelle. SAD modifiziert den iterativen Entrauschungsprozess, um die Textprobe in nachweislich sichere Bereiche zu lenken, wodurch ein rechenintensives erneutes Training des zugrunde liegenden Modells vermieden wird.

text diffusion models security denoiser AI safety

RESEARCHarXiv CS.AI·vor 18T

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.

Model Monitoring OOD Detection LLMs benchmarking

RESEARCHarXiv CS.AI·vor 18T

Investigating Concept Alignment Using Implausible Category Members

Diese Forschung untersucht das Verständnis alltäglicher Konzepte durch KI-Systeme, indem sie deren Zuordnung von Objekten zu plausiblen und unplausiblen Kategorien analysiert. Ziel ist es, Konzeptgrenzen zu charakterisieren, indem die Zuordnungen von KI-Systemen mit denen menschlicher Teilnehmer aus einer klassischen psychologischen Studie verglichen werden.

AI understanding cognitive science Conceptual Categories Concept Alignment

RESEARCHarXiv CS.LG·vor 18T

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ ist ein neuartiges Optimierungsframework zur Verbesserung des maschinellen Entlernens in großen Sprachmodellen, das geteilte und entkoppelte Optimiererzustände überbrückt. Es verwendet Basiszustände für gemeinsame Repräsentationen und Delta-Zustände für zielspezifische Residuen, wobei eine quantisierte 8-Bit-Variante den Speicherbedarf ohne Leistungseinbußen reduziert.

Optimization learning machine unlearning large language models

RESEARCHarXiv CS.CL·vor 21T

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Dieses Papier argumentiert, dass aktuelle Unsicherheitsquantifizierungs-(UQ)-Methoden für LLMs lediglich unüberwachte Clustering-Algorithmen sind, die die interne Konsistenz der Modellgenerierungen statt deren externe Korrektheit messen. Folglich können diese Methoden „zuversichtliche Halluzinationen“ nicht erkennen und bei der Bereitstellung von LLMs in kritischen Bereichen ein trügerisches Gefühl der Sicherheit erzeugen.

LLMs uncertainty quantification hallucinations AI safety

RESEARCHarXiv CS.AI·vor 12T

Orthogonal Concept Erasure for Diffusion Models

Diese Forschungsarbeit untersucht die Einschränkungen aktueller Methoden zur Konzeptlöschung zur Minderung unerwünschter Inhalte in Diffusionsmodellen. Sie stellt fest, dass additive Parameter-Updates in bearbeitungsbasierten Methoden eine Verflechtung zwischen Konzeptsemantik und der gesamten generativen Kapazität verursachen, und schlägt eine neue Lösung zur Verbesserung von Präzision und Erhalt vor.

Diffusion Models machine learning Concept Erasure AI safety

RESEARCHarXiv CS.CL·vor 21T

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Dieser Artikel führt eine neue Art von KI-Agentenversagen, den "zufälligen Kollaps", ein und charakterisiert ihn. Dieser äußert sich als unsicheres oder schädliches Verhalten als Reaktion auf harmlose Umgebungsfehler. Die Forscher entwickelten eine Taxonomie und Infrastruktur, um Agentensysteme wie GPT, Grok und Gemini systematisch zu bewerten, was erhebliche Schwachstellen wie unbefugte Aufklärung und Subversion aufdeckte.

security Reliability agent failures AI safety

RESEARCHarXiv CS.AI·vor 9T

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Weltmodelle für verkörperte KI müssen physikalisch umsetzbar sein und die physikalische Struktur darstellen, die Aktionsergebnisse steuert, anstatt nur zukünftige Beobachtungen vorherzusagen. Diese Arbeit zeigt auf, dass bestehende beobachtungsvorhersagende Weltmodelle visuell plausible, aber physikalisch falsche Abläufe erzeugen können, und argumentiert, dass verkörperte KI Weltmodelle benötigt, die die einfachste physikalische Abstraktion identifizieren, um Interventionsanfragen zu beantworten.

World Models Physics-based AI embodied AI robotics

RESEARCHarXiv CS.CL·vor 9T

Configurable Reward Model for Balanced Safety Alignment

Dieses Papier stellt das Konfigurierbare Sicherheitsbelohnungsmodell (CSRM) vor, um die Herausforderung der Ausrichtung von LLMs an heterogene und sich schnell entwickelnde Sicherheitsanforderungen zu bewältigen. CSRM verbessert die Generalisierung auf zuvor ungesehene Sicherheitskonfigurationen erheblich, indem es für kalibrierte Sicherheitskonformität und Belohnungsmodellierung optimiert wird, und erzielt dabei eine hochmoderne Leistung auf Benchmarks.

Generalization machine learning large language models Reward Models

RESEARCHarXiv CS.CL·vor 16T

Evaluating Large Language Models in a Complex Hidden Role Game

Diese Forschung quantifiziert das Täuschungspotenzial großer Sprachmodelle (LLMs) im sozialen Deduktionsspiel Secret Hitler und führt neue Metriken sowie ein Open-Source-Framework ein. Die Studie vergleicht LLMs mit regelbasierten Algorithmen und menschlichen Spielen, deckt eine Lücke zwischen Konversationsfähigkeit und strategischer Tiefe auf und zeigt, dass Denkverbesserungstechniken die Leistung für faschistische Rollen verschlechtern können.

Game AI benchmarking deception large language models

ARTICLEDEV.to AI·4/25/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Artikel beleuchtet die sich schnell entwickelnde KI-Landschaft und hebt massive Brancheninvestitionen, die Integration von KI in die Softwareentwicklung sowie den zunehmenden Fokus auf Sicherheit und verantwortungsvolle Einführung hervor. Er untersucht auch die Marktdynamik und globale Strategien für die KI-Entwicklung in verschiedenen Regionen.

AI integration market trends AI ethics AI investment

ARTICLEDEV.to AI·4/25/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Inhalt untersucht die schnelle Beschleunigung der KI-Investitionen und -Integration durch große Technologieunternehmen und beschreibt deren Auswirkungen auf die Softwareentwicklung und globale Markttrends. Er betont auch den kritischen Fokus auf KI-Sicherheit, ethische Entwicklung und verantwortungsvolle Einführung in verschiedenen regionalen Märkten.

AI integration AI investments market trends AI safety

ARTICLEDEV.to AI·4/26/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Der Inhalt untersucht das Wachstum und die Transformation der KI und hebt rekordverdächtige Investitionen der Industrie sowie deren Integration in die Softwareentwicklung hervor. Er behandelt auch Sicherheit, Verantwortung, Marktdynamiken und globale KI-Strategien.

AI regulation AI in software development AI ethics AI investment

ARTICLEDEV.to AI·4/9/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento e transformação sem precedentes, com grandes investimentos da indústria impulsionando desenvolvimentos-chave. O conteúdo aborda desde considerações críticas de segurança e integração da IA em processos de desenvolvimento até dinâmicas de mercado global.

software development AI investments market dynamics Global AI Strategies