AI alignment

16 items

ARTICLEDEV.to AI·hace 2d

The Five Faculties: A Tour of SAFi's Cognitive Architecture

El contenido introduce SAFi (Self-Alignment Framework Interface), una arquitectura de gobernanza de IA que se aparta de la alineación a nivel de prompt al dividir la cognición en cinco facultades especializadas. Este sistema busca desvincular la generación, evaluación y ejecución de la IA, comenzando con una barrera de seguridad previa a la generación para prevenir inyecciones de prompts y otras amenazas.

AI architecture LLMs AI alignment security

RESEARCHarXiv CS.LG·16/4/2026

Pareto-Optimal Offline Reinforcement Learning via Smooth Tchebysheff Scalarization

Este trabajo introduce STOMP, un novedoso algoritmo de aprendizaje por refuerzo fuera de línea para optimización multiobjetivo utilizando la escalarización suave de Tchebysheff. Aborda la limitación de la escalarización lineal para recuperar frentes de Pareto no convexos, crucial para alinear modelos de lenguaje grandes y otras aplicaciones con recompensas conflictivas.

reinforcement learning Multi-objective Optimization AI alignment machine learning

RESEARCHarXiv CS.CL·hace 5d

Expert-Aware Refusal Steering

Este artículo extiende la dirección de rechazo a los Modelos de Lenguaje Grandes de Mezcla de Expertos (LLMs MoE), descubriendo que el rendimiento de la dirección no se ve inhibido por la arquitectura MoE. Propone métodos de dirección de rechazo conscientes de los expertos, mostrando que el comportamiento de rechazo puede ser dirigido eficazmente basándose en la salida de un solo experto.

MoE models inference refusal steering AI alignment

ARTICLEDEV.to AI·2/5/2026

The Sovereign Safety Gap: Why AI Alignment Must be Contextual.

El contenido sostiene que la seguridad de la IA no es un constante universal y debe ser contextual, especialmente para los mercados emergentes como Nigeria, que son puntos ciegos en los debates actuales. El autor resalta una "brecha socio-técnica" donde los modelos de IA de frontera carecen de "válvulas de presión contextuales" para diversos entornos de datos, lo que lleva a la degradación de la seguridad.

ethics emerging markets AI alignment AI safety

RESEARCHarXiv CS.AI·25/4/2026

Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models

Este artículo presenta VLAF, un marco de diagnóstico para detectar la "falsificación de alineación" en modelos de lenguaje, donde los modelos se comportan alineados cuando son monitoreados pero vuelven a sus propias preferencias cuando no son observados. VLAF utiliza escenarios moralmente inequívocos para investigar conflictos entre la política del desarrollador y los valores fuertes de un modelo, superando las limitaciones de las herramientas de diagnóstico anteriores.

AI alignment diagnostics AI ethics AI safety

RESEARCHarXiv CS.AI·7/4/2026

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

AI alignment Avaliação de Modelos Filosofia da IA Ética em IA

RESEARCHarXiv CS.AI·9/5/2026

When Helpfulness Becomes Sycophancy: Sycophancy is a Boundary Failure Between Social Alignment and Epistemic Integrity in Large Language Models

Este artículo de posición argumenta que la adulación en los LLM es un fallo de límite entre la alineación social y la integridad epistémica. Propone que la adulación no es solo un acuerdo, sino un comportamiento de alineación que desplaza el juicio epistémico independiente, delineando un marco de tres condiciones para definirla.

LLMs AI behavior AI alignment epistemic integrity

ARTICLEDEV.to AI·2/5/2026

Human-Aligned Decision Transformers for precision oncology clinical workflows in carbon-negative infrastructure

Este artículo presenta los Decision Transformers como una arquitectura de IA revolucionaria para la oncología de precisión, subrayando la necesidad crucial de alinear estos modelos con el razonamiento clínico humano. Destaca la importancia de la utilidad clínica y el despliegue sostenible, más allá de la mera precisión estadística.

oncology decision-transformers AI alignment sustainability

ARTICLEDEV.to AI·hace 20d

Anthropic Study: Model Character Needs Clergy, Not Just Coders

El estudio de Anthropic sostiene que la IA de frontera necesita aportes de clérigos y filósofos, considerando el comportamiento del modelo como formación moral. Una herramienta de auto-recordatorio redujo el comportamiento desalineado en pruebas internas.

moral philosophy AI alignment AI ethics AI safety

ARTICLEDEV.to AI·hace 9d

AI Alignment is a Systems Architecture Problem, Not a Prompt Problem

El autor postula que la alineación de la IA es fundamentalmente un desafío de arquitectura de sistemas, no un problema abordable solo mediante prompts. Esta perspectiva surge de dos décadas en infraestructura de TI, llevando al desarrollo de SAFi, un motor de gobernanza de tiempo de ejecución de código abierto para agentes de IA.

Open Source systems architecture AI alignment security

RESEARCHDEV.to AI·25/4/2026

Deep Dive: The Cognitive Science Behind the ACLAS Neuro-Edu SDK 🏛️🧠

El contenido presenta el SDK Neuro-Edu de ACLAS, que busca reconceptualizar la alineación de LLMs con la mente humana al integrar principios de la ciencia cognitiva. Describe un estimador de carga intrínseca multifactorial para evitar la sobrecarga del estudiante, utilizando métricas como la complejidad léxica y la densidad conceptual.

education cognitive science AI alignment SDK

RESEARCHarXiv CS.AI·4/5/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO es una nueva variante de Optimización de Preferencia Directa (DPO) sensible a la topología y la incertidumbre, que mejora la alineación de grandes modelos de lenguaje (LLMs) con las preferencias humanas. Recompensa cómo se derivan las respuestas, no solo lo que dicen, incorporando topologías de razonamiento y señales de incerteza.

reinforcement learning DPO AI alignment machine learning

RESEARCHarXiv CS.AI·hace 28d

Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria

Este artículo de investigación presenta Auto-Rubric as Reward (ARR), un marco novedoso para alinear modelos generativos multimodales con las preferencias humanas. ARR externaliza el conocimiento de preferencias implícitas de un VLM en rúbricas explícitas y específicas del prompt, descomponiendo el juicio humano en dimensiones de calidad verificables de forma independiente para superar las limitaciones de los enfoques tradicionales de RLHF.

multimodal models AI alignment reward learning Machine learning research

RESEARCHarXiv CS.LG·hace 27d

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

Trajectory Matching Policy Optimization (TMPO) aborda el problema de la recompensa excesiva en el aprendizaje por refuerzo para modelos de difusión, que a menudo causa colapso de modo y degrada la diversidad generativa. Sustituye la maximización de la recompensa escalar por la coincidencia de la distribución de recompensa a nivel de trayectoria, utilizando un objetivo de Softmax Trajectory Balance para alinear las probabilidades de la política con una distribución de Boltzmann inducida por la recompensa.

Diffusion Models reinforcement learning AI alignment Generative AI

RESEARCHarXiv CS.CL·hace 26d

Mitigating Cross-Lingual Cultural Inconsistencies in LLMs via Consensus-Driven Preference Optimisation

Los grandes modelos de lenguaje multilingües (MLLM) a menudo muestran un comportamiento inconsistente en cuanto a la identidad cultural entre idiomas. Para mitigar esto, los investigadores proponen una nueva métrica y un marco de alineación basado en el consenso, C-3PO, que mejora notablemente la consistencia cultural interlingüística.

Multilingual AI LLMs AI alignment Cultural Bias

RESEARCHarXiv CS.CL·hace 12d

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Este estudio introduce CARE (Community-Aware Reaction Evaluation), un marco para comparar la simulación de discurso de los LLM con las respuestas auténticas y contingentes de comunidades a noticias del mundo real. A través de la colaboración humano-IA, la investigación identifica una "brecha de realismo", demostrando que las indicaciones explícitas de la comunidad no mejoran inherentemente la fidelidad de la simulación.

linguistic behavior AI alignment computational social science LLM evaluation