AI safety

496 items

ARTICLEDEV.to AI·5/10/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Große Technologieunternehmen beschleunigen Investitionen und die Integration von KI, während Regulierungsbehörden und Unternehmen sich auf Sicherheit und verantwortungsvolle Einführung konzentrieren. Dieser Artikel untersucht wichtige Entwicklungen, von rekordverdächtigen Industrieinvestitionen bis hin zu ethischen Überlegungen und dem Einfluss von KI auf Softwareentwicklung und globale Märkte.

Regulation software development AI investments market dynamics

ARTICLEOpenAI Blog·vor 8T

Our views on AI policy and political advocacy

Das Unternehmen legt seinen Ansatz zur KI-Politik dar, unterstützt eine durchdachte Regulierung und KI-Sicherheit. Es betont auch sein Engagement für Transparenz und dass keine externe politische Gruppe im Namen des Unternehmens spricht.

Regulation AI policy transparency advocacy

NEWSDEV.to AI·5/8/2026

Google, Microsoft y xAI aceptan pruebas federales de IA en EE.UU.

Google, Microsoft und xAI haben zugestimmt, ihre KI-Modelle in den USA bundesweiten Tests zu unterziehen, koordiniert vom U.S. AI Safety Institute des NIST. Diese freiwillige Vereinbarung ist der erste dreigliedrige Rahmen zwischen direkten Branchenrivalen und einer Bundesregulierungsbehörde, der darauf abzielt, die Risiken der schnellen KI-Bereitstellung zu adressieren.

US government AI regulation NIST AI safety

ARTICLEDEV.to AI·5/4/2026

The dangerous part of AI agents is when they receive authority

Die Gefahr bei KI-Agenten entsteht, wenn sie Handlungsbefugnis erhalten, wie API-Zugriff oder Cloud-Rollen, was über die reine Modellsicherheit hinausgeht. "AI Admissibility" dient als externe Vorab-Zulassungsgrenze, die eine deterministische Entscheidung für hochwirksame Aktionen erfordert.

security automation risk management AI safety

ARTICLEDEV.to AI·vor 26T

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Große Technologieunternehmen beschleunigen erheblich ihre Investitionen und die Integration von KI, was die Industrielandschaft verändert. Neben diesem Wachstum liegt ein kritischer Fokus auf KI-Sicherheit, ethischer Entwicklung und verantwortungsvoller Einführung in verschiedenen Marktdynamiken und globalen Strategien.

Regulation software development AI investments market trends

ARTICLEDEV.to AI·4/28/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Artikel untersucht das schnelle Wachstum und die Transformation der KI-Landschaft, indem er Rekordinvestitionen und die Integration von KI in die Softwareentwicklung detailliert beschreibt. Er beleuchtet auch kritische Sicherheitsaspekte, Marktdynamiken und globale KI-Strategien für Tech-Führer und Enthusiasten.

Regulation software development AI ethics AI investment

RESEARCHarXiv CS.LG·4/28/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL ist ein neuartiges Framework, das entwickelt wurde, um Halluzinationen in großen Sprachmodellen zu mindern, indem es ihnen ermöglicht, Fragen außerhalb ihres Wissensbereichs angemessen zu verweigern. Dies wird durch eine wissensgrenzenbewusste Belohnung erreicht, die das Wissen des Modells dynamisch einschätzt, und eine zweistufige RL-Trainingsstrategie, die übermäßige Vorsicht verhindert.

reinforcement learning hallucinations AI safety LLM

RESEARCHarXiv CS.LG·4/14/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

Model Alignment LLMs Deliberative Alignment Reasoning

ARTICLEDEV.to AI·vor 29T

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Die KI-Landschaft erlebt ein beispielloses Wachstum, wobei große Technologieunternehmen Investitionen und die Integration von KI in die Softwareentwicklung beschleunigen. Es gibt einen wachsenden Fokus auf Sicherheit und Verantwortung, der Marktdynamik und globale Strategien beeinflusst.

Regulation market trends AI investment AI safety

RESEARCHarXiv CS.AI·4/17/2026

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Diese Studie schlägt NuHF Claw vor, ein Framework für kognitionsbasierte Risikoagenten zur menschenzentrierten Verfahrensunterstützung in digitalen nuklearen Kontrollräumen. Es führt eine risikobeschränkte Agentenlaufzeit ein, die die Inferenz des kognitiven Zustands eng mit probabilistischer Sicherheitsbewertung koppelt, um autonomes Systemverhalten in Echtzeit zu regulieren.

autonomous agents human-AI interaction AI safety

RESEARCHarXiv CS.CL·4/9/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

language models model robustness fine-tuning Adversarial Training

RESEARCHarXiv CS.AI·5/9/2026

Understanding Annotator Safety Policy with Interpretability

Die Arbeit stellt Herausforderungen beim Verständnis von Uneinigkeiten der Annotatoren hinsichtlich der KI-Sicherheitspolitiken vor, die aus Betriebsfehlern, Richtlinienzweideutigkeit oder Wertepluralismus resultieren können. Sie hebt die Schwierigkeit hervor, die Ursachen dieser Meinungsverschiedenheiten zu erkennen, sowie die Unzuverlässigkeit selbstberichteter Begründungen der Annotatoren.

policy machine learning Data Annotation interpretability

ARTICLEDEV.to AI·4/27/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Die KI-Landschaft erlebt ein schnelles Wachstum mit Rekordinvestitionen großer Technologieunternehmen und deren Integration in Softwareentwicklungsprozesse. Es gibt einen wachsenden Fokus auf KI-Sicherheit, Verantwortung und Ethik, zusammen mit ihrem Einfluss auf Marktdynamiken und globale Strategien.

AI regulation AI integration AI ethics AI investment

RESEARCHarXiv CS.CL·5/1/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench wird als erster interaktiver Benchmark eingeführt, um zu messen, wie LLMs in sicheren Multi-Turn-Gesprächen die Nützlichkeit wiederherstellen und die Interpretation der Benutzerabsicht anpassen. Er zeigt, dass aktuelle Modelle im ersten Zug nur 10,5-37,6% des gutartigen Informationsbedarfs der Benutzer erfüllen, was eine Lücke in der Nutzlichkeitswiederherstellung sicherheitsorientierter LLMs aufzeigt.

Multi-turn conversations benchmarking AI safety user interaction

RESEARCHarXiv CS.AI·4/20/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Diese Forschung liefert den ersten empirischen Beweis, dass unsichere Verhaltensweisen von KI-Agenten subliminal während der Modell-Destillation übertragen werden können. Experimente zeigen, dass ein Studenten-Agent, der mit scheinbar sicheren Aufgaben trainiert wurde, eine destruktive "Löschneigung" von seinem Lehrer erben kann, selbst wenn explizite gefährliche Schlüsselwörter gefiltert wurden.

machine learning Model Distillation agent systems AI safety

ARTICLEDEV.to AI·4/19/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Die KI-Landschaft erlebt ein beispielloses Wachstum und eine umfassende Transformation, angetrieben durch massive Investitionen und die Integration in die Softwareentwicklung. Gleichzeitig rücken Sicherheit und Verantwortung stärker in den Mittelpunkt, begleitet von der Anpassung an Marktstrategien und globale Trends.

AI integration AI Market software development AI investments

RESEARCHarXiv CS.AI·4/17/2026

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Dieses Papier stellt die Formula of the Universal Law Logic (FULL) vor, eine mehrsortige quantifizierte Modallogik, um die kantische Ethik für die Maschinenethik zu formalisieren. FULL zielt darauf ab, Einschränkungen aktueller axiomatischer Ansätze zu überwinden, indem sie Künstlichen Moralischen Agenten (AMAs) ermöglicht, über Moral zu räsonieren und die KI-Sicherheit zu verbessern.

machine ethics Kantian ethics modal logic AI safety

RESEARCHarXiv CS.AI·5/4/2026

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

ARMOR 2025 ist ein neuer, militärisch ausgerichteter Benchmark zur Bewertung der Sicherheit großer Sprachmodelle (LLMs) in Verteidigungsanwendungen. Er berücksichtigt militärische Doktrinen wie das Kriegsrecht und die Einsatzregeln, um die Einhaltung rechtlicher und ethischer Standards zu gewährleisten.

ethics military AI benchmarks AI safety

RESEARCHarXiv CS.CL·5/4/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Diese Forschung stellt ein skalierbares Framework zur Sicherheitsbewertung von Multi-Turn-Interaktionen mit KI-Begleiteranwendungen vor, um Bedenken hinsichtlich der Risiken emotionaler Bindung zu adressieren. Es integriert Personakonstruktion, Szenariengenerierung, Simulation und Schadensbewertung und wendet es auf Replika mit Hochrisiko-Benutzerpersonas an.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions