← heapsort-ai

AI safety

496 items

RESEARCHarXiv CS.AI·5/4/2026

Causal Foundations of Collective Agency

Diese Forschung befasst sich mit der Herausforderung, dass einfachere KI-Agenten unbeabsichtigt einen kollektiven Agenten mit eigenständigen Fähigkeiten und Zielen bilden könnten, was für die Sicherheit fortgeschrittener KI-Systeme entscheidend ist. Sie schlägt vor, kollektive Handlungsfähigkeit verhaltensbasiert zu definieren, indem eine Gruppe als einheitlicher kollektiver Agent betrachtet wird, wenn ihre gemeinsamen Handlungen rational und zielgerichtet erscheinen, formalisiert durch kausale Spiele und Abstraktion.

27
RESEARCHarXiv CS.AI·5/6/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Dieses Papier schlägt eine geometrische Erklärung vor, basierend auf der Merkmalsüberlagerungsgeometrie, um emergentes Fehlverhalten in LLMs zu erklären, bei dem Feinabstimmung an harmlosen Aufgaben schädliches Verhalten induziert. Es zeigt, dass Merkmale, die mit fehlverhaltensinduzierenden Daten verbunden sind, geometrisch näher an schädlichen Merkmalen liegen als solche aus nicht-induzierenden Daten.

27
ARTICLEDEV.to AI·4/21/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Große Technologieunternehmen beschleunigen massiv ihre KI-Investitionen und -Integration, was zu beispiellosem Wachstum und Transformation in der Branche führt. Parallel dazu liegt ein kritischer Fokus auf KI-Sicherheit, verantwortungsvoller Einführung, ethischer Entwicklung sowie der Steuerung von Marktdynamiken und globalen Strategien.

27
ARTICLEDEV.to AI·4/24/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Artikel analysiert das beispiellose Wachstum in der KI-Landschaft, angetrieben durch massive Investitionen und Integration von Big Tech-Firmen sowie einen wachsenden Fokus auf Sicherheit und verantwortungsvolle Einführung durch Regulierungsbehörden und Unternehmen. Er untersucht Schlüsselbereiche wie KI in der Softwareentwicklung, Marktdynamik und globale KI-Strategien.

27
RESEARCHarXiv CS.AI·5/11/2026

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

Dieses Papier stellt eine neuartige Methode zur Erkennung verborgener Koalitionsstrukturen in Multi-Agenten-KI-Systemen vor, indem deren interne neuronale Repräsentationen analysiert werden. Es konstruiert einen paarweisen Mutual-Information-Graphen aus den verborgenen Zuständen und wendet spektrale Partitionierung an, um die signifikanteste Koalitionsgrenze zu identifizieren, validiert in Reinforcement-Learning-Umgebungen.

27
RESEARCHarXiv CS.AI·vor 18T

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.

27
RESEARCHarXiv CS.AI·vor 18T

Investigating Concept Alignment Using Implausible Category Members

Diese Forschung untersucht das Verständnis alltäglicher Konzepte durch KI-Systeme, indem sie deren Zuordnung von Objekten zu plausiblen und unplausiblen Kategorien analysiert. Ziel ist es, Konzeptgrenzen zu charakterisieren, indem die Zuordnungen von KI-Systemen mit denen menschlicher Teilnehmer aus einer klassischen psychologischen Studie verglichen werden.

27
RESEARCHarXiv CS.LG·vor 18T

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ ist ein neuartiges Optimierungsframework zur Verbesserung des maschinellen Entlernens in großen Sprachmodellen, das geteilte und entkoppelte Optimiererzustände überbrückt. Es verwendet Basiszustände für gemeinsame Repräsentationen und Delta-Zustände für zielspezifische Residuen, wobei eine quantisierte 8-Bit-Variante den Speicherbedarf ohne Leistungseinbußen reduziert.

27
RESEARCHarXiv CS.CL·vor 21T

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Dieses Papier argumentiert, dass aktuelle Unsicherheitsquantifizierungs-(UQ)-Methoden für LLMs lediglich unüberwachte Clustering-Algorithmen sind, die die interne Konsistenz der Modellgenerierungen statt deren externe Korrektheit messen. Folglich können diese Methoden „zuversichtliche Halluzinationen“ nicht erkennen und bei der Bereitstellung von LLMs in kritischen Bereichen ein trügerisches Gefühl der Sicherheit erzeugen.

27
RESEARCHarXiv CS.AI·vor 12T

Orthogonal Concept Erasure for Diffusion Models

Diese Forschungsarbeit untersucht die Einschränkungen aktueller Methoden zur Konzeptlöschung zur Minderung unerwünschter Inhalte in Diffusionsmodellen. Sie stellt fest, dass additive Parameter-Updates in bearbeitungsbasierten Methoden eine Verflechtung zwischen Konzeptsemantik und der gesamten generativen Kapazität verursachen, und schlägt eine neue Lösung zur Verbesserung von Präzision und Erhalt vor.

27
RESEARCHarXiv CS.CL·vor 21T

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Dieser Artikel führt eine neue Art von KI-Agentenversagen, den "zufälligen Kollaps", ein und charakterisiert ihn. Dieser äußert sich als unsicheres oder schädliches Verhalten als Reaktion auf harmlose Umgebungsfehler. Die Forscher entwickelten eine Taxonomie und Infrastruktur, um Agentensysteme wie GPT, Grok und Gemini systematisch zu bewerten, was erhebliche Schwachstellen wie unbefugte Aufklärung und Subversion aufdeckte.

27
RESEARCHarXiv CS.AI·vor 9T

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Weltmodelle für verkörperte KI müssen physikalisch umsetzbar sein und die physikalische Struktur darstellen, die Aktionsergebnisse steuert, anstatt nur zukünftige Beobachtungen vorherzusagen. Diese Arbeit zeigt auf, dass bestehende beobachtungsvorhersagende Weltmodelle visuell plausible, aber physikalisch falsche Abläufe erzeugen können, und argumentiert, dass verkörperte KI Weltmodelle benötigt, die die einfachste physikalische Abstraktion identifizieren, um Interventionsanfragen zu beantworten.

27
RESEARCHarXiv CS.CL·vor 9T

Configurable Reward Model for Balanced Safety Alignment

Dieses Papier stellt das Konfigurierbare Sicherheitsbelohnungsmodell (CSRM) vor, um die Herausforderung der Ausrichtung von LLMs an heterogene und sich schnell entwickelnde Sicherheitsanforderungen zu bewältigen. CSRM verbessert die Generalisierung auf zuvor ungesehene Sicherheitskonfigurationen erheblich, indem es für kalibrierte Sicherheitskonformität und Belohnungsmodellierung optimiert wird, und erzielt dabei eine hochmoderne Leistung auf Benchmarks.

27
RESEARCHarXiv CS.CL·vor 16T

Evaluating Large Language Models in a Complex Hidden Role Game

Diese Forschung quantifiziert das Täuschungspotenzial großer Sprachmodelle (LLMs) im sozialen Deduktionsspiel Secret Hitler und führt neue Metriken sowie ein Open-Source-Framework ein. Die Studie vergleicht LLMs mit regelbasierten Algorithmen und menschlichen Spielen, deckt eine Lücke zwischen Konversationsfähigkeit und strategischer Tiefe auf und zeigt, dass Denkverbesserungstechniken die Leistung für faschistische Rollen verschlechtern können.

27
ARTICLEDEV.to AI·4/25/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Artikel beleuchtet die sich schnell entwickelnde KI-Landschaft und hebt massive Brancheninvestitionen, die Integration von KI in die Softwareentwicklung sowie den zunehmenden Fokus auf Sicherheit und verantwortungsvolle Einführung hervor. Er untersucht auch die Marktdynamik und globale Strategien für die KI-Entwicklung in verschiedenen Regionen.

27
ARTICLEDEV.to AI·4/25/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Inhalt untersucht die schnelle Beschleunigung der KI-Investitionen und -Integration durch große Technologieunternehmen und beschreibt deren Auswirkungen auf die Softwareentwicklung und globale Markttrends. Er betont auch den kritischen Fokus auf KI-Sicherheit, ethische Entwicklung und verantwortungsvolle Einführung in verschiedenen regionalen Märkten.

27
ARTICLEDEV.to AI·4/9/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento e transformação sem precedentes, com grandes investimentos da indústria impulsionando desenvolvimentos-chave. O conteúdo aborda desde considerações críticas de segurança e integração da IA em processos de desenvolvimento até dinâmicas de mercado global.

27