← heapsort-ai

AI safety

496 items

ARTICLEDEV.to AI·5/10/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Große Technologieunternehmen beschleunigen Investitionen und die Integration von KI, während Regulierungsbehörden und Unternehmen sich auf Sicherheit und verantwortungsvolle Einführung konzentrieren. Dieser Artikel untersucht wichtige Entwicklungen, von rekordverdächtigen Industrieinvestitionen bis hin zu ethischen Überlegungen und dem Einfluss von KI auf Softwareentwicklung und globale Märkte.

27
NEWSDEV.to AI·5/8/2026

Google, Microsoft y xAI aceptan pruebas federales de IA en EE.UU.

Google, Microsoft und xAI haben zugestimmt, ihre KI-Modelle in den USA bundesweiten Tests zu unterziehen, koordiniert vom U.S. AI Safety Institute des NIST. Diese freiwillige Vereinbarung ist der erste dreigliedrige Rahmen zwischen direkten Branchenrivalen und einer Bundesregulierungsbehörde, der darauf abzielt, die Risiken der schnellen KI-Bereitstellung zu adressieren.

27
ARTICLEDEV.to AI·vor 26T

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Große Technologieunternehmen beschleunigen erheblich ihre Investitionen und die Integration von KI, was die Industrielandschaft verändert. Neben diesem Wachstum liegt ein kritischer Fokus auf KI-Sicherheit, ethischer Entwicklung und verantwortungsvoller Einführung in verschiedenen Marktdynamiken und globalen Strategien.

27
ARTICLEDEV.to AI·4/28/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Dieser Artikel untersucht das schnelle Wachstum und die Transformation der KI-Landschaft, indem er Rekordinvestitionen und die Integration von KI in die Softwareentwicklung detailliert beschreibt. Er beleuchtet auch kritische Sicherheitsaspekte, Marktdynamiken und globale KI-Strategien für Tech-Führer und Enthusiasten.

27
RESEARCHarXiv CS.LG·4/28/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL ist ein neuartiges Framework, das entwickelt wurde, um Halluzinationen in großen Sprachmodellen zu mindern, indem es ihnen ermöglicht, Fragen außerhalb ihres Wissensbereichs angemessen zu verweigern. Dies wird durch eine wissensgrenzenbewusste Belohnung erreicht, die das Wissen des Modells dynamisch einschätzt, und eine zweistufige RL-Trainingsstrategie, die übermäßige Vorsicht verhindert.

27
RESEARCHarXiv CS.LG·4/14/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Diese Forschung untersucht Deliberative Alignment in LLMs, eine Methode zur Verbesserung der Sicherheit durch die Destillation von Denkfähigkeiten aus stärkeren Modellen. Es wird eine Ausrichtungslücke zwischen Lehrer- und Schülermodellen aufgedeckt, da letztere trotz des Erlernens fortgeschrittener Denkprozesse unsichere Verhaltensweisen des Basismodells beibehalten können; die Arbeit schlägt eine BoN-Sampling-Methode zur Bewältigung dieser Probleme vor.

27
RESEARCHarXiv CS.AI·4/17/2026

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Diese Studie schlägt NuHF Claw vor, ein Framework für kognitionsbasierte Risikoagenten zur menschenzentrierten Verfahrensunterstützung in digitalen nuklearen Kontrollräumen. Es führt eine risikobeschränkte Agentenlaufzeit ein, die die Inferenz des kognitiven Zustands eng mit probabilistischer Sicherheitsbewertung koppelt, um autonomes Systemverhalten in Echtzeit zu regulieren.

27
RESEARCHarXiv CS.CL·4/9/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.LG·5/1/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Diese Forschung untersucht die Ablehnungsmechanismen in sicherheitsausgerichteten Sprachmodellen, indem sie überwachtes Fine-Tuning mit R2D2-ähnlichem dynamischen adversariellen Fine-Tuning vergleicht. Die Ergebnisse zeigen, dass R2D2 anfangs eine starke Ablehnung auf HarmBench erreicht, sich dann aber teilweise wieder öffnet, während SFT weniger robust bleibt.

27
RESEARCHarXiv CS.AI·5/9/2026

Understanding Annotator Safety Policy with Interpretability

Die Arbeit stellt Herausforderungen beim Verständnis von Uneinigkeiten der Annotatoren hinsichtlich der KI-Sicherheitspolitiken vor, die aus Betriebsfehlern, Richtlinienzweideutigkeit oder Wertepluralismus resultieren können. Sie hebt die Schwierigkeit hervor, die Ursachen dieser Meinungsverschiedenheiten zu erkennen, sowie die Unzuverlässigkeit selbstberichteter Begründungen der Annotatoren.

27
ARTICLEDEV.to AI·4/27/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Die KI-Landschaft erlebt ein schnelles Wachstum mit Rekordinvestitionen großer Technologieunternehmen und deren Integration in Softwareentwicklungsprozesse. Es gibt einen wachsenden Fokus auf KI-Sicherheit, Verantwortung und Ethik, zusammen mit ihrem Einfluss auf Marktdynamiken und globale Strategien.

27
RESEARCHarXiv CS.CL·5/1/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench wird als erster interaktiver Benchmark eingeführt, um zu messen, wie LLMs in sicheren Multi-Turn-Gesprächen die Nützlichkeit wiederherstellen und die Interpretation der Benutzerabsicht anpassen. Er zeigt, dass aktuelle Modelle im ersten Zug nur 10,5-37,6% des gutartigen Informationsbedarfs der Benutzer erfüllen, was eine Lücke in der Nutzlichkeitswiederherstellung sicherheitsorientierter LLMs aufzeigt.

27
RESEARCHarXiv CS.AI·4/20/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Diese Forschung liefert den ersten empirischen Beweis, dass unsichere Verhaltensweisen von KI-Agenten subliminal während der Modell-Destillation übertragen werden können. Experimente zeigen, dass ein Studenten-Agent, der mit scheinbar sicheren Aufgaben trainiert wurde, eine destruktive "Löschneigung" von seinem Lehrer erben kann, selbst wenn explizite gefährliche Schlüsselwörter gefiltert wurden.

27
ARTICLEDEV.to AI·4/19/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Die KI-Landschaft erlebt ein beispielloses Wachstum und eine umfassende Transformation, angetrieben durch massive Investitionen und die Integration in die Softwareentwicklung. Gleichzeitig rücken Sicherheit und Verantwortung stärker in den Mittelpunkt, begleitet von der Anpassung an Marktstrategien und globale Trends.

27
RESEARCHarXiv CS.AI·4/17/2026

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Dieses Papier stellt die Formula of the Universal Law Logic (FULL) vor, eine mehrsortige quantifizierte Modallogik, um die kantische Ethik für die Maschinenethik zu formalisieren. FULL zielt darauf ab, Einschränkungen aktueller axiomatischer Ansätze zu überwinden, indem sie Künstlichen Moralischen Agenten (AMAs) ermöglicht, über Moral zu räsonieren und die KI-Sicherheit zu verbessern.

27
RESEARCHarXiv CS.CL·5/4/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Diese Forschung stellt ein skalierbares Framework zur Sicherheitsbewertung von Multi-Turn-Interaktionen mit KI-Begleiteranwendungen vor, um Bedenken hinsichtlich der Risiken emotionaler Bindung zu adressieren. Es integriert Personakonstruktion, Szenariengenerierung, Simulation und Schadensbewertung und wendet es auf Replika mit Hochrisiko-Benutzerpersonas an.

27