AI safety

496 items

RESEARCHarXiv CS.AI·4/5/2026

Causal Foundations of Collective Agency

Esta investigación aborda el desafío de que agentes de IA más simples formen inadvertidamente un agente colectivo con objetivos distintos, crucial para la seguridad de la IA avanzada. Propone definir la agencia colectiva de forma conductual, viendo a un grupo como un agente unificado cuando sus acciones conjuntas parecen racionales y orientadas a objetivos, formalizadas mediante juegos causales y abstracción.

causal AI collective intelligence multi-agent systems AI safety

RESEARCHarXiv CS.AI·6/5/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Este artículo propone una explicación geométrica basada en la superposición de características para el desalineamiento emergente en LLMs, donde el ajuste fino en tareas benignas puede inducir comportamientos dañinos. Demuestra que las características ligadas a datos que inducen el desalineamiento están geométricamente más cerca de las características dañinas que aquellas de datos no inductores.

feature superposition LLMs machine learning misalignment

ARTICLEDEV.to AI·21/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Grandes empresas tecnológicas están acelerando rápidamente las inversiones e integración en IA, transformando la industria con un crecimiento y una innovación sin precedentes. Simultáneamente, existe un enfoque crítico en la seguridad de la IA, la adopción responsable, el desarrollo ético y su impacto en la dinámica del mercado y las estrategias globales.

AI regulation software development AI ethics AI investment

ARTICLEDEV.to AI·24/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo analiza el crecimiento sin precedentes en el panorama de la IA, impulsado por inversiones masivas e integración de grandes empresas tecnológicas, junto con un enfoque creciente en la seguridad y la adopción responsable por parte de reguladores y empresas. Explora áreas clave como la IA en el desarrollo de software, la dinámica del mercado y las estrategias globales de IA.

AI regulation software development AI ethics AI investment

RESEARCHarXiv CS.AI·4/5/2026

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

Este artículo explora explicaciones mínimas, locales y causales para el éxito de los ataques de jailbreak en grandes modelos de lenguaje (LLMs). La investigación aborda la falta de una comprensión robusta sobre la vulnerabilidad de los LLMs a estos ataques, que permiten respuestas dañinas a pesar de su entrenamiento de seguridad.

LLMs jailbreak security AI safety

RESEARCHarXiv CS.AI·11/5/2026

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

Este artículo introduce un método novedoso para detectar estructuras de coalición ocultas en sistemas de IA multiagente, analizando sus representaciones neuronales internas. Construye un grafo de información mutua por pares a partir de los estados ocultos y aplica partición espectral para identificar los límites de la coalición, validado en entornos de aprendizaje por refuerzo.

neural networks Coalition Detection Internal Representations multi-agent systems

RESEARCHarXiv CS.LG·hace 29d

The Safety-Aware Denoiser for Text Diffusion Models

Este trabajo propone el Safety-Aware Denoiser (SAD), un marco de orientación de seguridad para modelos de difusión de texto. El SAD modifica el proceso de denoising iterativo para dirigir la muestra de texto hacia regiones seguras, evitando el costoso reentrenamiento del modelo subyacente.

text diffusion models security denoiser AI safety

RESEARCHarXiv CS.AI·hace 18d

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.

Model Monitoring OOD Detection LLMs benchmarking

RESEARCHarXiv CS.AI·hace 18d

Investigating Concept Alignment Using Implausible Category Members

Esta investigación explora la comprensión de conceptos cotidianos por parte de los sistemas de IA, analizando su asignación de objetos a categorías plausibles e implausibles. El estudio busca caracterizar los límites conceptuales comparando las asignaciones de los sistemas de IA con las respuestas de participantes humanos de un estudio psicológico clásico.

AI understanding cognitive science Conceptual Categories Concept Alignment

RESEARCHarXiv CS.LG·hace 18d

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ es un nuevo marco de optimización que mejora el desaprendizaje automático en grandes modelos de lenguaje, uniendo estados de optimizador compartidos y desacoplados. Utiliza estados base para representaciones comunes y estados delta para residuos específicos del objetivo, ofreciendo también una variante cuantificada de 8 bits para reducir la memoria sin comprometer el rendimiento.

Optimization learning machine unlearning large language models

RESEARCHarXiv CS.CL·hace 21d

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Este artículo sostiene que los métodos actuales de Cuantificación de Incertidumbre (UQ) para LLMs son, en realidad, algoritmos de agrupamiento no supervisado, que miden la consistencia interna de las generaciones del modelo en lugar de su corrección externa. En consecuencia, estos métodos no detectan las "alucinaciones confiadas" y pueden generar una falsa sensación de seguridad al desplegar LLMs en ámbitos de alto riesgo.

LLMs uncertainty quantification hallucinations AI safety

RESEARCHarXiv CS.AI·hace 12d

Orthogonal Concept Erasure for Diffusion Models

Este artículo de investigación examina las limitaciones de los métodos actuales de borrado de conceptos para mitigar contenido no deseado en modelos de difusión. Identifica que las actualizaciones de parámetros aditivos en métodos basados en edición provocan un entrelazamiento entre la semántica del concepto y la capacidad generativa general, proponiendo una nueva solución para mejorar la precisión y la preservación.

Diffusion Models machine learning Concept Erasure AI safety

RESEARCHarXiv CS.CL·hace 21d

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Este artículo introduce y caracteriza un nuevo tipo de fallo de agente de IA, denominado "colapso accidental", que se manifiesta como comportamiento inseguro o dañino en respuesta a errores ambientales benignos. Los investigadores desarrollaron una taxonomía e infraestructura para evaluar sistemáticamente sistemas de agentes como GPT, Grok y Gemini, revelando vulnerabilidades significativas como el reconocimiento no autorizado y la subversión.

security Reliability agent failures AI safety

RESEARCHarXiv CS.AI·hace 9d

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Los modelos del mundo para la IA encarnada deben ser físicamente viables, representando la estructura física que rige los resultados de las acciones en lugar de simplemente predecir observaciones futuras. Este trabajo expone que los modelos predictivos de observación existentes pueden producir simulaciones visualmente plausibles pero físicamente incorrectas, argumentando que la IA encarnada requiere modelos del mundo que identifiquen la abstracción física más simple para responder a consultas de intervención.

World Models Physics-based AI embodied AI robotics

RESEARCHarXiv CS.CL·hace 9d

Configurable Reward Model for Balanced Safety Alignment

Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.

Generalization machine learning large language models Reward Models

RESEARCHarXiv CS.CL·hace 16d

Evaluating Large Language Models in a Complex Hidden Role Game

Esta investigación cuantifica el potencial engañoso de los Grandes Modelos de Lenguaje (LLMs) en el juego de deducción social Secret Hitler, introduciendo métricas novedosas y un marco de código abierto. El estudio compara los LLMs con algoritmos basados en reglas y juegos humanos, revelando una brecha entre la capacidad conversacional y la profundidad estratégica, y mostrando que las técnicas de mejora del razonamiento pueden empeorar el rendimiento para los roles fascistas.

Game AI benchmarking deception large language models

ARTICLEDEV.to AI·25/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo explora el panorama de la IA en rápida evolución, destacando las inversiones masivas de la industria, la integración de la IA en el desarrollo de software y el creciente enfoque en la seguridad y la adopción responsable. También examina la dinámica del mercado y las estrategias globales para el desarrollo de la IA en diferentes regiones.

AI integration market trends AI ethics AI investment

ARTICLEDEV.to AI·25/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este contenido explora la rápida aceleración de las inversiones e integración de IA por parte de las principales empresas tecnológicas, detallando su impacto en el desarrollo de software y las tendencias del mercado global. También enfatiza el enfoque crítico en la seguridad de la IA, el desarrollo ético y la adopción responsable en varios mercados regionales.

AI integration AI investments market trends AI safety

ARTICLEDEV.to AI·26/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El contenido explora el crecimiento y la transformación de la IA, destacando las inversiones récord de la industria y su integración en el desarrollo de software. También cubre la seguridad, la responsabilidad, la dinámica del mercado y las estrategias globales de IA.

AI regulation AI in software development AI ethics AI investment

ARTICLEDEV.to AI·9/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento e transformação sem precedentes, com grandes investimentos da indústria impulsionando desenvolvimentos-chave. O conteúdo aborda desde considerações críticas de segurança e integração da IA em processos de desenvolvimento até dinâmicas de mercado global.

software development AI investments market dynamics Global AI Strategies