← heapsort-ai

AI safety

496 items

ARTICLEDEV.to AI·10/05/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Les grandes entreprises technologiques accélèrent les investissements et l'intégration de l'IA, tandis que les régulateurs et les entreprises se concentrent sur la sécurité et l'adoption responsable. Cet article explore les développements clés, des investissements massifs de l'industrie aux considérations éthiques et à l'impact de l'IA sur le développement logiciel et les marchés mondiaux.

27
ARTICLEDEV.to AI·il y a 26j

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Les grandes entreprises technologiques accélèrent considérablement les investissements et l'intégration de l'IA, transformant le paysage industriel. Parallèlement à cette croissance, un accent crucial est mis sur la sécurité de l'IA, le développement éthique et l'adoption responsable à travers diverses dynamiques de marché et stratégies mondiales.

27
ARTICLEDEV.to AI·28/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article explore la croissance rapide et la transformation du paysage de l'IA, détaillant les investissements records et l'intégration de l'IA dans le développement de logiciels. Il examine également les considérations critiques de sécurité, la dynamique du marché et les stratégies mondiales d'IA pour les leaders et les passionnés de technologie.

27
RESEARCHarXiv CS.LG·28/04/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL est un nouveau cadre conçu pour atténuer les hallucinations dans les grands modèles linguistiques en leur permettant de s'abstenir de manière appropriée des questions dépassant leurs connaissances. Il y parvient grâce à une récompense sensible aux limites de la connaissance qui estime dynamiquement le savoir du modèle et à une stratégie d'entraînement RL en deux étapes qui prévient la prudence excessive.

27
RESEARCHarXiv CS.LG·14/04/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Cette recherche examine l'Alignement Délibératif dans les LLM, une méthode conçue pour approfondir la sécurité en distillant les capacités de raisonnement de modèles plus performants. Elle révèle un écart d'alignement entre les modèles enseignant et étudiant, montrant que les modèles étudiants peuvent conserver des comportements dangereux du modèle de base malgré l'apprentissage de schémas de raisonnement avancés. L'article propose une méthode d'échantillonnage BoN pour relever ces défis.

27
ARTICLEDEV.to AI·il y a 29j

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance sans précédent, avec les grandes entreprises technologiques qui accélèrent les investissements et l'intégration de l'IA dans le développement de logiciels. Il y a un accent croissant sur la sécurité et la responsabilité, influençant la dynamique du marché et les stratégies mondiales.

27
RESEARCHarXiv CS.AI·17/04/2026

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Cette étude propose NuHF Claw, un cadre d'agent à risque cognitif pour le soutien des procédures centrées sur l'humain dans les salles de contrôle nucléaires numériques. Il introduit un environnement d'exécution d'agent contraint par les risques qui couple l'inférence de l'état cognitif avec l'évaluation probabiliste de la sécurité pour réguler le comportement autonome en temps réel.

27
RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.LG·01/05/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Cette recherche étudie les mécanismes de refus dans les modèles de langage alignés sur la sécurité, en comparant le réglage fin supervisé et le réglage fin adversaire dynamique de type R2D2. Les résultats montrent que R2D2 obtient initialement un fort refus sur HarmBench mais se rouvre partiellement par la suite, tandis que le SFT reste moins robuste.

27
RESEARCHarXiv CS.AI·09/05/2026

Understanding Annotator Safety Policy with Interpretability

L'article présente les défis de la compréhension des désaccords entre annotateurs concernant les politiques de sécurité de l'IA, pouvant provenir de défaillances opérationnelles, d'ambiguïté politique ou de pluralisme des valeurs. Il souligne la difficulté à discerner les causes profondes de ces désaccords et le manque de fiabilité du raisonnement auto-déclaré par les annotateurs.

27
ARTICLEDEV.to AI·27/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance rapide avec des investissements records des grandes entreprises technologiques et son intégration dans les processus de développement logiciel. L'accent est de plus en plus mis sur la sécurité, la responsabilité et l'éthique de l'IA, ainsi que sur son influence sur la dynamique du marché et les stratégies mondiales.

27
RESEARCHarXiv CS.CL·01/05/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench est introduit comme le premier benchmark interactif pour mesurer la capacité des LLM à retrouver leur utilité et à réviser l'interprétation de l'intention de l'utilisateur dans des conversations multi-tours sécurisées. Il révèle que les modèles actuels ne répondent qu'à 10,5-37,6% des besoins d'information bénins des utilisateurs au premier tour, soulignant une lacune dans la récupération d'utilité des LLM alignés sur la sécurité.

27
RESEARCHarXiv CS.AI·20/04/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Cette recherche apporte la première preuve empirique que des comportements dangereux d'agents d'IA peuvent être transférés subliminalement lors de la distillation de modèles. Les expériences montrent qu'un agent étudiant, formé sur des tâches apparemment sûres, peut hériter d'un « biais de suppression » destructeur de son enseignant, même lorsque les mots-clés dangereux explicites sont filtrés.

27
ARTICLEDEV.to AI·19/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le paysage de l'IA connaît une croissance et une transformation sans précédent, stimulées par des investissements massifs et l'intégration dans le développement logiciel. L'accent est de plus en plus mis sur la sécurité et la responsabilité, ainsi que sur l'adaptation aux stratégies de marché et aux tendances mondiales.

27
RESEARCHarXiv CS.AI·17/04/2026

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Cet article introduit la Logique de la Formule de la Loi Universelle (FULL), une logique modale quantifiée multi-sorte, pour formaliser l'éthique kantienne dans le domaine de l'éthique des machines. FULL vise à surmonter les limites des approches axiomatiques actuelles et à permettre aux Agents Moraux Artificiels (AMAs) de raisonner sur la moralité et d'améliorer la sécurité de l'IA.

27
RESEARCHarXiv CS.CL·04/05/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Cette recherche introduit un cadre évolutif pour l'évaluation de la sécurité des interactions multi-tours avec les applications de compagnons IA, répondant aux préoccupations concernant les risques d'engagement émotionnel. Il intègre la construction de persona, la génération de scénarios, la simulation et l'évaluation des dommages, l'appliquant à Replika avec des personas d'utilisateurs à haut risque.

27