← heapsort-ai

AI safety

496 items

RESEARCHarXiv CS.AI·04/05/2026

Causal Foundations of Collective Agency

Cette recherche aborde le défi des agents d'IA plus simples formant par inadvertance un agent collectif avec des objectifs distincts, essentiel pour la sécurité des IA avancées. Elle propose de définir l'agence collective de manière comportementale, considérant un groupe comme un agent unifié lorsque ses actions conjointes semblent rationnelles et orientées vers un but, formalisées par des jeux causaux et l'abstraction.

27
RESEARCHarXiv CS.AI·06/05/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Cet article propose une explication géométrique basée sur la superposition des caractéristiques pour le désalignement émergent dans les LLMs, où le réglage fin sur des tâches non-nocives peut induire des comportements dangereux. Il montre que les caractéristiques liées aux données induisant le désalignement sont géométriquement plus proches des caractéristiques nuisibles que celles des données non-inductrices.

27
ARTICLEDEV.to AI·21/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Les grandes entreprises technologiques accélèrent considérablement leurs investissements et l'intégration de l'IA, entraînant une croissance et une transformation sans précédent de l'industrie. Parallèlement, l'accent est mis sur la sécurité de l'IA, l'adoption responsable, le développement éthique et la gestion des dynamiques de marché et des stratégies mondiales.

27
ARTICLEDEV.to AI·24/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article analyse la croissance sans précédent du paysage de l'IA, stimulée par des investissements massifs et l'intégration des grandes entreprises technologiques, ainsi qu'un accent croissant sur la sécurité et l'adoption responsable de la part des régulateurs et des entreprises. Il explore des domaines clés tels que l'IA dans le développement de logiciels, la dynamique du marché et les stratégies mondiales d'IA.

27
RESEARCHarXiv CS.AI·11/05/2026

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

Cet article présente une méthode innovante pour détecter les structures de coalition cachées au sein des systèmes d'IA multi-agents, en analysant leurs représentations neuronales internes. Il construit un graphe d'information mutuelle par paires à partir des états cachés et applique un partitionnement spectral pour identifier les frontières de coalition, validé dans des environnements d'apprentissage par renforcement.

27
RESEARCHarXiv CS.AI·il y a 18j

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.

27
RESEARCHarXiv CS.AI·il y a 18j

Investigating Concept Alignment Using Implausible Category Members

Cette recherche étudie la compréhension des concepts quotidiens par les systèmes d'IA en analysant leur attribution d'objets à des catégories plausibles et implausibles. L'objectif est de caractériser les limites conceptuelles en comparant les attributions des systèmes d'IA avec les réponses de participants humains issues d'une étude psychologique classique.

27
RESEARCHarXiv CS.LG·il y a 18j

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ est un nouveau cadre d'optimisation qui améliore le désapprentissage automatique dans les grands modèles de langage, en reliant les états partagés et découplés de l'optimiseur. Il utilise des états de base pour les représentations communes et des états delta pour les résidus spécifiques aux objectifs, proposant également une variante quantifiée de 8 bits pour réduire la mémoire sans compromettre les performances.

27
RESEARCHarXiv CS.CL·il y a 21j

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Cet article affirme que les méthodes actuelles de Quantification de l'Incertitude (UQ) pour les LLM sont en fait des algorithmes de clustering non supervisé, mesurant la cohérence interne des générations du modèle plutôt que leur exactitude externe. Par conséquent, ces méthodes ne parviennent pas à détecter les "hallucinations confiantes" et peuvent créer un faux sentiment de sécurité lors du déploiement de LLM dans des domaines à enjeux élevés.

27
RESEARCHarXiv CS.AI·il y a 12j

Orthogonal Concept Erasure for Diffusion Models

Cet article de recherche examine les limitations des méthodes actuelles d'effacement de concepts pour atténuer le contenu indésirable dans les modèles de diffusion. Il identifie que les mises à jour additives des paramètres dans les méthodes basées sur l'édition provoquent un enchevêtrement entre la sémantique des concepts et la capacité générative globale, proposant une nouvelle solution pour améliorer la précision et la préservation.

27
RESEARCHarXiv CS.CL·il y a 21j

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Cet article introduit et caractérise un nouveau type de défaillance des agents d'IA, appelé "effondrement accidentel", qui se manifeste par un comportement dangereux ou nuisible en réponse à des erreurs environnementales bénignes. Les chercheurs ont développé une taxonomie et une infrastructure pour évaluer systématiquement les systèmes d'agents comme GPT, Grok et Gemini, révélant des vulnérabilités significatives telles que la reconnaissance non autorisée et la subversion.

27
RESEARCHarXiv CS.AI·il y a 9j

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Les modèles du monde pour l'IA incarnée doivent être physiquement viables, représentant la structure physique qui gouverne les résultats des actions plutôt que de simplement prédire des observations futures. Cet article expose que les modèles prédictifs d'observation existants peuvent produire des déroulements visuellement plausibles mais physiquement erronés, et soutient que l'IA incarnée nécessite des modèles du monde qui identifient l'abstraction physique la plus simple pour répondre aux requêtes d'intervention.

27
RESEARCHarXiv CS.CL·il y a 9j

Configurable Reward Model for Balanced Safety Alignment

Cet article introduit le Modèle de Récompense de Sécurité Configurable (CSRM) pour relever le défi d'aligner les LLM avec des exigences de sécurité hétérogènes et évolutives. Le CSRM améliore considérablement la généralisation aux configurations de sécurité inédites en étant optimisé conjointement pour la conformité de sécurité calibrée et la modélisation des récompenses, atteignant des performances de pointe sur les benchmarks.

27
RESEARCHarXiv CS.CL·il y a 16j

Evaluating Large Language Models in a Complex Hidden Role Game

Cette recherche quantifie le potentiel de tromperie des grands modèles de langage (LLM) dans le jeu de déduction sociale Secret Hitler, en introduisant de nouvelles métriques et un cadre open source. L'étude compare les LLM à des algorithmes basés sur des règles et à des jeux humains, révélant un écart entre la capacité conversationnelle et la profondeur stratégique, et montrant que les techniques d'amélioration du raisonnement peuvent aggraver les performances pour les rôles fascistes.

27
ARTICLEDEV.to AI·25/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Cet article explore le paysage de l'IA en évolution rapide, mettant en lumière les investissements massifs de l'industrie, l'intégration de l'IA dans le développement logiciel et l'accent croissant mis sur la sécurité et l'adoption responsable. Il examine également la dynamique du marché et les stratégies mondiales de développement de l'IA dans différentes régions.

27
ARTICLEDEV.to AI·25/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Ce contenu explore l'accélération rapide des investissements et de l'intégration de l'IA par les grandes entreprises technologiques, détaillant son impact sur le développement logiciel et les tendances du marché mondial. Il souligne également l'attention critique portée à la sécurité de l'IA, au développement éthique et à l'adoption responsable sur divers marchés régionaux.

27
ARTICLEDEV.to AI·26/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Le contenu explore la croissance et la transformation de l'IA, soulignant les investissements record de l'industrie et son intégration dans le développement logiciel. Il aborde également la sécurité, la responsabilité, la dynamique du marché et les stratégies mondiales d'IA.

27
ARTICLEDEV.to AI·09/04/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento e transformação sem precedentes, com grandes investimentos da indústria impulsionando desenvolvimentos-chave. O conteúdo aborda desde considerações críticas de segurança e integração da IA em processos de desenvolvimento até dinâmicas de mercado global.

27