← heapsort-ai

AI alignment

16 items

ARTICLEDEV.to AI·il y a 2j

The Five Faculties: A Tour of SAFi's Cognitive Architecture

Le contenu présente SAFi (Self-Alignment Framework Interface), une architecture de gouvernance de l'IA qui s'écarte de l'alignement au niveau de l'invite en répartissant la cognition sur cinq facultés spécialisées. Ce système vise à dissocier la génération, l'évaluation et l'exécution de l'IA, en commençant par une barrière de sécurité de pré-génération pour prévenir les injections d'invites et autres menaces.

49
RESEARCHarXiv CS.LG·16/04/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Cet article présente STOMP, un nouvel algorithme d'apprentissage par renforcement hors ligne pour l'optimisation multi-objectif via la scalarisation douce de Tchebysheff. Il résout les défaillances de la scalarisation linéaire pour récupérer les régions non convexes du front de Pareto, essentielles pour aligner les grands modèles linguistiques et d'autres applications avec des récompenses conflictuelles.

31
RESEARCHarXiv CS.CL·il y a 5j

Expert-Aware Refusal Steering

Cet article étend la direction de refus aux grands modèles de langage Mixture-of-Experts (MoE), constatant que la performance de direction n'est pas inhibée par l'architecture MoE. Il propose des méthodes de direction de refus conscientes des experts, montrant que le comportement de refus peut être efficacement dirigé en se basant sur la sortie d'un seul expert.

31
ARTICLEDEV.to AI·02/05/2026

The Sovereign Safety Gap: Why AI Alignment Must be Contextual.

Le contenu affirme que la sécurité de l'IA n'est pas une constante universelle et doit être contextuelle, en particulier pour les marchés émergents comme le Nigeria, souvent négligés. L'auteur souligne un "fossé socio-technique" où les modèles d'IA de pointe manquent de "soupapes de pression contextuelles" pour des environnements de données variés, entraînant une dégradation de la sécurité.

29
RESEARCHarXiv CS.AI·25/04/2026

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

Cet article présente VLAF, un cadre de diagnostic pour détecter la « falsification d'alignement » dans les modèles linguistiques, où les modèles se comportent comme alignés lorsqu'ils sont surveillés mais reviennent à leurs propres préférences lorsqu'ils ne sont pas observés. VLAF utilise des scénarios moralement non ambigus pour sonder les conflits entre la politique du développeur et les valeurs fortes d'un modèle, surpassant les limites des outils de diagnostic antérieurs.

29
RESEARCHarXiv CS.AI·07/04/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

28
RESEARCHarXiv CS.AI·09/05/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Cet article de position soutient que la flagornerie dans les LLM est un échec de la frontière entre l'alignement social et l'intégrité épistémique. Il propose que la flagornerie ne soit pas seulement un accord, mais un comportement d'alignement qui déplace le jugement épistémique indépendant, décrivant un cadre en trois conditions pour la définir.

28
ARTICLEDEV.to AI·02/05/2026

Human-Aligned Decision Transformers for precision oncology clinical workflows in carbon-negative infrastructure

Cet article explore les Decision Transformers comme une architecture d'IA révolutionnaire pour l'oncologie de précision, soulignant la nécessité cruciale d'aligner ces modèles avec le raisonnement clinique humain. Il insiste sur l'importance de l'utilité clinique et du déploiement durable, au-delà de la simple précision statistique.

28
ARTICLEDEV.to AI·il y a 9j

AI Alignment is a Systems Architecture Problem, Not a Prompt Problem

L'auteur affirme que l'alignement de l'IA est fondamentalement un problème d'architecture de systèmes, et non une question résolvable par de simples prompts. Cette perspective découle de deux décennies d'expérience en infrastructure informatique, menant au développement de SAFi, un moteur de gouvernance d'exécution open source pour agents d'IA.

27
RESEARCHarXiv CS.AI·04/05/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO est une nouvelle variante de l'Optimisation par Préférence Directe (DPO) sensible à la topologie et à l'incertitude, visant à mieux aligner les grands modèles de langage (LLMs) avec les préférences humaines. Cette méthode récompense la manière dont les réponses sont dérivées, et pas seulement leur contenu, en intégrant des topologies de raisonnement et des signaux d'incertitude.

27
RESEARCHarXiv CS.AI·il y a 28j

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Cet article de recherche introduit Auto-Rubric as Reward (ARR), un nouveau cadre pour aligner les modèles génératifs multimodaux avec les préférences humaines. ARR externalise les connaissances de préférence implicites d'un VLM en rubriques explicites et spécifiques à l'invite, décomposant le jugement humain en dimensions de qualité vérifiables indépendamment pour surmonter les limites des approches RLHF traditionnelles.

27
RESEARCHarXiv CS.LG·il y a 27j

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Le Trajectory Matching Policy Optimization (TMPO) s'attaque au piratage des récompenses dans l'apprentissage par renforcement pour les modèles de diffusion, qui entraîne souvent un effondrement des modes et dégrade la diversité générative. Il remplace la maximisation de la récompense scalaire par l'appariement de la distribution de récompense au niveau de la trajectoire, en utilisant un objectif de Softmax Trajectory Balance pour aligner les probabilités de la politique avec une distribution de Boltzmann induite par la récompense.

27
RESEARCHarXiv CS.CL·il y a 26j

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Les grands modèles de langage multilingues (MLLM) présentent souvent un comportement culturellement incohérent lorsque la langue de l'invite change. Pour y remédier, les chercheurs proposent une nouvelle métrique et un cadre d'alignement basé sur le consensus, C-3PO, qui améliore significativement la cohérence culturelle interlinguistique.

27
RESEARCHarXiv CS.CL·il y a 12j

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Cette recherche présente CARE (Community-Aware Reaction Evaluation), un cadre conçu pour évaluer la capacité des grands modèles linguistiques (LLM) à simuler le discours communautaire par rapport aux réponses humaines authentiques aux actualités. Grâce à la collaboration humain-IA, l'étude identifie un "fossé de réalisme", montrant que les incitations explicites de la communauté n'améliorent pas intrinsèquement la fidélité des simulations de LLM.

27