AI safety

496 items

RESEARCHarXiv CS.AI·04/05/2026

Causal Foundations of Collective Agency

Cette recherche aborde le défi des agents d'IA plus simples formant par inadvertance un agent collectif avec des objectifs distincts, essentiel pour la sécurité des IA avancées. Elle propose de définir l'agence collective de manière comportementale, considérant un groupe comme un agent unifié lorsque ses actions conjointes semblent rationnelles et orientées vers un but, formalisées par des jeux causaux et l'abstraction.

causal AI collective intelligence multi-agent systems AI safety

RESEARCHarXiv CS.AI·06/05/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Cet article propose une explication géométrique basée sur la superposition des caractéristiques pour le désalignement émergent dans les LLMs, où le réglage fin sur des tâches non-nocives peut induire des comportements dangereux. Il montre que les caractéristiques liées aux données induisant le désalignement sont géométriquement plus proches des caractéristiques nuisibles que celles des données non-inductrices.

feature superposition LLMs machine learning misalignment

ARTICLEDEV.to AI·21/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Les grandes entreprises technologiques accélèrent considérablement leurs investissements et l'intégration de l'IA, entraînant une croissance et une transformation sans précédent de l'industrie. Parallèlement, l'accent est mis sur la sécurité de l'IA, l'adoption responsable, le développement éthique et la gestion des dynamiques de marché et des stratégies mondiales.

AI regulation software development AI ethics AI investment

ARTICLEDEV.to AI·24/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article analyse la croissance sans précédent du paysage de l'IA, stimulée par des investissements massifs et l'intégration des grandes entreprises technologiques, ainsi qu'un accent croissant sur la sécurité et l'adoption responsable de la part des régulateurs et des entreprises. Il explore des domaines clés tels que l'IA dans le développement de logiciels, la dynamique du marché et les stratégies mondiales d'IA.

AI regulation software development AI ethics AI investment

RESEARCHarXiv CS.AI·04/05/2026

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Cet article explore des explications minimales, locales et causales pour le succès des attaques de jailbreak sur les grands modèles de langage (LLMs). La recherche aborde le manque de compréhension robuste concernant la vulnérabilité des LLMs à ces attaques, qui permettent des réponses nuisibles malgré leur entraînement de sécurité.

LLMs jailbreak security AI safety

RESEARCHarXiv CS.AI·11/05/2026

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

Cet article présente une méthode innovante pour détecter les structures de coalition cachées au sein des systèmes d'IA multi-agents, en analysant leurs représentations neuronales internes. Il construit un graphe d'information mutuelle par paires à partir des états cachés et applique un partitionnement spectral pour identifier les frontières de coalition, validé dans des environnements d'apprentissage par renforcement.

neural networks Coalition Detection Internal Representations multi-agent systems

RESEARCHarXiv CS.LG·il y a 29j

The Safety-Aware Denoiser for Text Diffusion Models

Ce travail propose le Safety-Aware Denoiser (SAD), un cadre de guidage de sécurité pour les modèles de diffusion de texte. Le SAD modifie le processus itératif de dénoising pour orienter l'échantillon de texte vers des régions sûres, évitant le réentraînement coûteux du modèle sous-jacent.

text diffusion models security denoiser AI safety

RESEARCHarXiv CS.AI·il y a 18j

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.

Model Monitoring OOD Detection LLMs benchmarking

RESEARCHarXiv CS.AI·il y a 18j

Investigating Concept Alignment Using Implausible Category Members

Cette recherche étudie la compréhension des concepts quotidiens par les systèmes d'IA en analysant leur attribution d'objets à des catégories plausibles et implausibles. L'objectif est de caractériser les limites conceptuelles en comparant les attributions des systèmes d'IA avec les réponses de participants humains issues d'une étude psychologique classique.

AI understanding cognitive science Conceptual Categories Concept Alignment

RESEARCHarXiv CS.LG·il y a 18j

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un nouveau cadre d'optimisation qui améliore le désapprentissage automatique dans les grands modèles de langage, en reliant les états partagés et découplés de l'optimiseur. Il utilise des états de base pour les représentations communes et des états delta pour les résidus spécifiques aux objectifs, proposant également une variante quantifiée de 8 bits pour réduire la mémoire sans compromettre les performances.

Optimization learning machine unlearning large language models

RESEARCHarXiv CS.CL·il y a 21j

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Cet article affirme que les méthodes actuelles de Quantification de l'Incertitude (UQ) pour les LLM sont en fait des algorithmes de clustering non supervisé, mesurant la cohérence interne des générations du modèle plutôt que leur exactitude externe. Par conséquent, ces méthodes ne parviennent pas à détecter les "hallucinations confiantes" et peuvent créer un faux sentiment de sécurité lors du déploiement de LLM dans des domaines à enjeux élevés.

LLMs uncertainty quantification hallucinations AI safety

RESEARCHarXiv CS.AI·il y a 12j

Orthogonal Concept Erasure for Diffusion Models

Cet article de recherche examine les limitations des méthodes actuelles d'effacement de concepts pour atténuer le contenu indésirable dans les modèles de diffusion. Il identifie que les mises à jour additives des paramètres dans les méthodes basées sur l'édition provoquent un enchevêtrement entre la sémantique des concepts et la capacité générative globale, proposant une nouvelle solution pour améliorer la précision et la préservation.

Diffusion Models machine learning Concept Erasure AI safety

RESEARCHarXiv CS.CL·il y a 21j

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Cet article introduit et caractérise un nouveau type de défaillance des agents d'IA, appelé "effondrement accidentel", qui se manifeste par un comportement dangereux ou nuisible en réponse à des erreurs environnementales bénignes. Les chercheurs ont développé une taxonomie et une infrastructure pour évaluer systématiquement les systèmes d'agents comme GPT, Grok et Gemini, révélant des vulnérabilités significatives telles que la reconnaissance non autorisée et la subversion.

security Reliability agent failures AI safety

RESEARCHarXiv CS.AI·il y a 9j

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Les modèles du monde pour l'IA incarnée doivent être physiquement viables, représentant la structure physique qui gouverne les résultats des actions plutôt que de simplement prédire des observations futures. Cet article expose que les modèles prédictifs d'observation existants peuvent produire des déroulements visuellement plausibles mais physiquement erronés, et soutient que l'IA incarnée nécessite des modèles du monde qui identifient l'abstraction physique la plus simple pour répondre aux requêtes d'intervention.

World Models Physics-based AI embodied AI robotics

RESEARCHarXiv CS.CL·il y a 9j

Configurable Reward Model for Balanced Safety Alignment

Cet article introduit le Modèle de Récompense de Sécurité Configurable (CSRM) pour relever le défi d'aligner les LLM avec des exigences de sécurité hétérogènes et évolutives. Le CSRM améliore considérablement la généralisation aux configurations de sécurité inédites en étant optimisé conjointement pour la conformité de sécurité calibrée et la modélisation des récompenses, atteignant des performances de pointe sur les benchmarks.

Generalization machine learning large language models Reward Models

RESEARCHarXiv CS.CL·il y a 16j

Evaluating Large Language Models in a Complex Hidden Role Game

Cette recherche quantifie le potentiel de tromperie des grands modèles de langage (LLM) dans le jeu de déduction sociale Secret Hitler, en introduisant de nouvelles métriques et un cadre open source. L'étude compare les LLM à des algorithmes basés sur des règles et à des jeux humains, révélant un écart entre la capacité conversationnelle et la profondeur stratégique, et montrant que les techniques d'amélioration du raisonnement peuvent aggraver les performances pour les rôles fascistes.

Game AI benchmarking deception large language models

ARTICLEDEV.to AI·25/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article explore le paysage de l'IA en évolution rapide, mettant en lumière les investissements massifs de l'industrie, l'intégration de l'IA dans le développement logiciel et l'accent croissant mis sur la sécurité et l'adoption responsable. Il examine également la dynamique du marché et les stratégies mondiales de développement de l'IA dans différentes régions.

AI integration market trends AI ethics AI investment

ARTICLEDEV.to AI·25/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Ce contenu explore l'accélération rapide des investissements et de l'intégration de l'IA par les grandes entreprises technologiques, détaillant son impact sur le développement logiciel et les tendances du marché mondial. Il souligne également l'attention critique portée à la sécurité de l'IA, au développement éthique et à l'adoption responsable sur divers marchés régionaux.

AI integration AI investments market trends AI safety

ARTICLEDEV.to AI·26/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le contenu explore la croissance et la transformation de l'IA, soulignant les investissements record de l'industrie et son intégration dans le développement logiciel. Il aborde également la sécurité, la responsabilité, la dynamique du marché et les stratégies mondiales d'IA.

AI regulation AI in software development AI ethics AI investment

ARTICLEDEV.to AI·09/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento e transformação sem precedentes, com grandes investimentos da indústria impulsionando desenvolvimentos-chave. O conteúdo aborda desde considerações críticas de segurança e integração da IA em processos de desenvolvimento até dinâmicas de mercado global.

software development AI investments market dynamics Global AI Strategies