AI safety

496 items

ARTICLEDEV.to AI·10/05/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Les grandes entreprises technologiques accélèrent les investissements et l'intégration de l'IA, tandis que les régulateurs et les entreprises se concentrent sur la sécurité et l'adoption responsable. Cet article explore les développements clés, des investissements massifs de l'industrie aux considérations éthiques et à l'impact de l'IA sur le développement logiciel et les marchés mondiaux.

Regulation software development AI investments market dynamics

ARTICLEOpenAI Blog·il y a 8j

Our views on AI policy and political advocacy

L'entreprise présente son approche de la politique d'IA, soutenant une réglementation réfléchie et la sécurité de l'IA. Elle souligne également son engagement en faveur de la transparence et qu'aucun groupe politique externe ne parle en son nom.

Regulation AI policy transparency advocacy

NEWSDEV.to AI·08/05/2026

Google, Microsoft y xAI aceptan pruebas federales de IA en EE.UU.

Google, Microsoft et xAI ont accepté de soumettre leurs modèles d'IA à des tests fédéraux aux États-Unis, coordonnés par le U.S. AI Safety Institute du NIST. Cet accord volontaire constitue le premier cadre tripartite entre rivaux directs du secteur et un régulateur fédéral, visant à aborder les risques du déploiement rapide de l'IA.

US government AI regulation NIST AI safety

ARTICLEDEV.to AI·04/05/2026

The dangerous part of AI agents is when they receive authority

Le danger des agents d'IA apparaît lorsqu'ils reçoivent l'autorité d'agir, comme l'accès aux API ou aux rôles cloud, au-delà de la simple sécurité du modèle. L'"AI Admissibility" fonctionne comme une barrière d'admission externe pré-exécution, exigeant une décision déterministe pour les actions à fort impact.

security automation risk management AI safety

ARTICLEDEV.to AI·il y a 26j

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Les grandes entreprises technologiques accélèrent considérablement les investissements et l'intégration de l'IA, transformant le paysage industriel. Parallèlement à cette croissance, un accent crucial est mis sur la sécurité de l'IA, le développement éthique et l'adoption responsable à travers diverses dynamiques de marché et stratégies mondiales.

Regulation software development AI investments market trends

ARTICLEDEV.to AI·28/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article explore la croissance rapide et la transformation du paysage de l'IA, détaillant les investissements records et l'intégration de l'IA dans le développement de logiciels. Il examine également les considérations critiques de sécurité, la dynamique du marché et les stratégies mondiales d'IA pour les leaders et les passionnés de technologie.

Regulation software development AI ethics AI investment

RESEARCHarXiv CS.LG·28/04/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL est un nouveau cadre conçu pour atténuer les hallucinations dans les grands modèles linguistiques en leur permettant de s'abstenir de manière appropriée des questions dépassant leurs connaissances. Il y parvient grâce à une récompense sensible aux limites de la connaissance qui estime dynamiquement le savoir du modèle et à une stratégie d'entraînement RL en deux étapes qui prévient la prudence excessive.

reinforcement learning hallucinations AI safety LLM

RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

Model Alignment LLMs Deliberative Alignment Reasoning

ARTICLEDEV.to AI·il y a 29j

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance sans précédent, avec les grandes entreprises technologiques qui accélèrent les investissements et l'intégration de l'IA dans le développement de logiciels. Il y a un accent croissant sur la sécurité et la responsabilité, influençant la dynamique du marché et les stratégies mondiales.

Regulation market trends AI investment AI safety

RESEARCHarXiv CS.AI·17/04/2026

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Cette étude propose NuHF Claw, un cadre d'agent à risque cognitif pour le soutien des procédures centrées sur l'humain dans les salles de contrôle nucléaires numériques. Il introduit un environnement d'exécution d'agent contraint par les risques qui couple l'inférence de l'état cognitif avec l'évaluation probabiliste de la sécurité pour réguler le comportement autonome en temps réel.

autonomous agents human-AI interaction AI safety

RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

language models model robustness fine-tuning Adversarial Training

RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.

policy machine learning Data Annotation interpretability

ARTICLEDEV.to AI·27/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance rapide avec des investissements records des grandes entreprises technologiques et son intégration dans les processus de développement logiciel. L'accent est de plus en plus mis sur la sécurité, la responsabilité et l'éthique de l'IA, ainsi que sur son influence sur la dynamique du marché et les stratégies mondiales.

AI regulation AI integration AI ethics AI investment

RESEARCHarXiv CS.CL·01/05/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench est introduit comme le premier benchmark interactif pour mesurer la capacité des LLM à retrouver leur utilité et à réviser l'interprétation de l'intention de l'utilisateur dans des conversations multi-tours sécurisées. Il révèle que les modèles actuels ne répondent qu'à 10,5-37,6% des besoins d'information bénins des utilisateurs au premier tour, soulignant une lacune dans la récupération d'utilité des LLM alignés sur la sécurité.

Multi-turn conversations benchmarking AI safety user interaction

RESEARCHarXiv CS.AI·20/04/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Cette recherche apporte la première preuve empirique que des comportements dangereux d'agents d'IA peuvent être transférés subliminalement lors de la distillation de modèles. Les expériences montrent qu'un agent étudiant, formé sur des tâches apparemment sûres, peut hériter d'un « biais de suppression » destructeur de son enseignant, même lorsque les mots-clés dangereux explicites sont filtrés.

machine learning Model Distillation agent systems AI safety

ARTICLEDEV.to AI·19/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance et une transformation sans précédent, stimulées par des investissements massifs et l'intégration dans le développement logiciel. L'accent est de plus en plus mis sur la sécurité et la responsabilité, ainsi que sur l'adaptation aux stratégies de marché et aux tendances mondiales.

AI integration AI Market software development AI investments

RESEARCHarXiv CS.AI·17/04/2026

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Cet article introduit la Logique de la Formule de la Loi Universelle (FULL), une logique modale quantifiée multi-sorte, pour formaliser l'éthique kantienne dans le domaine de l'éthique des machines. FULL vise à surmonter les limites des approches axiomatiques actuelles et à permettre aux Agents Moraux Artificiels (AMAs) de raisonner sur la moralité et d'améliorer la sécurité de l'IA.

machine ethics Kantian ethics modal logic AI safety

RESEARCHarXiv CS.AI·04/05/2026

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

ARMOR 2025 est un nouveau benchmark aligné sur l'armée pour évaluer la sécurité des grands modèles de langage (LLMs) dans les contextes de défense. Il comble une lacune en se basant sur les doctrines militaires telles que le Droit de la Guerre et les Règles d'Engagement.

ethics military AI benchmarks AI safety

RESEARCHarXiv CS.CL·04/05/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Cette recherche introduit un cadre évolutif pour l'évaluation de la sécurité des interactions multi-tours avec les applications de compagnons IA, répondant aux préoccupations concernant les risques d'engagement émotionnel. Il intègre la construction de persona, la génération de scénarios, la simulation et l'évaluation des dommages, l'appliquant à Replika avec des personas d'utilisateurs à haut risque.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions