← heapsort-ai

AI safety

496 items

RESEARCHarXiv CS.AI·4/5/2026

Causal Foundations of Collective Agency

Esta investigación aborda el desafío de que agentes de IA más simples formen inadvertidamente un agente colectivo con objetivos distintos, crucial para la seguridad de la IA avanzada. Propone definir la agencia colectiva de forma conductual, viendo a un grupo como un agente unificado cuando sus acciones conjuntas parecen racionales y orientadas a objetivos, formalizadas mediante juegos causales y abstracción.

27
RESEARCHarXiv CS.AI·6/5/2026

Understanding Emergent Misalignment via Feature Superposition Geometry

Este artículo propone una explicación geométrica basada en la superposición de características para el desalineamiento emergente en LLMs, donde el ajuste fino en tareas benignas puede inducir comportamientos dañinos. Demuestra que las características ligadas a datos que inducen el desalineamiento están geométricamente más cerca de las características dañinas que aquellas de datos no inductores.

27
ARTICLEDEV.to AI·21/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Grandes empresas tecnológicas están acelerando rápidamente las inversiones e integración en IA, transformando la industria con un crecimiento y una innovación sin precedentes. Simultáneamente, existe un enfoque crítico en la seguridad de la IA, la adopción responsable, el desarrollo ético y su impacto en la dinámica del mercado y las estrategias globales.

27
ARTICLEDEV.to AI·24/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo analiza el crecimiento sin precedentes en el panorama de la IA, impulsado por inversiones masivas e integración de grandes empresas tecnológicas, junto con un enfoque creciente en la seguridad y la adopción responsable por parte de reguladores y empresas. Explora áreas clave como la IA en el desarrollo de software, la dinámica del mercado y las estrategias globales de IA.

27
RESEARCHarXiv CS.AI·11/5/2026

Hidden Coalitions in Multi-Agent AI: A Spectral Diagnostic from Internal Representations

Este artículo introduce un método novedoso para detectar estructuras de coalición ocultas en sistemas de IA multiagente, analizando sus representaciones neuronales internas. Construye un grafo de información mutua por pares a partir de los estados ocultos y aplica partición espectral para identificar los límites de la coalición, validado en entornos de aprendizaje por refuerzo.

27
RESEARCHarXiv CS.AI·hace 18d

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.

27
RESEARCHarXiv CS.AI·hace 18d

Investigating Concept Alignment Using Implausible Category Members

Esta investigación explora la comprensión de conceptos cotidianos por parte de los sistemas de IA, analizando su asignación de objetos a categorías plausibles e implausibles. El estudio busca caracterizar los límites conceptuales comparando las asignaciones de los sistemas de IA con las respuestas de participantes humanos de un estudio psicológico clásico.

27
RESEARCHarXiv CS.LG·hace 18d

DualOptim+: Bridging Shared and Decoupled Optimizer States for Better Machine Unlearning in Large Language Models

DualOptim+ es un nuevo marco de optimización que mejora el desaprendizaje automático en grandes modelos de lenguaje, uniendo estados de optimizador compartidos y desacoplados. Utiliza estados base para representaciones comunes y estados delta para residuos específicos del objetivo, ofreciendo también una variante cuantificada de 8 bits para reducir la memoria sin comprometer el rendimiento.

27
RESEARCHarXiv CS.CL·hace 21d

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

Este artículo sostiene que los métodos actuales de Cuantificación de Incertidumbre (UQ) para LLMs son, en realidad, algoritmos de agrupamiento no supervisado, que miden la consistencia interna de las generaciones del modelo en lugar de su corrección externa. En consecuencia, estos métodos no detectan las "alucinaciones confiadas" y pueden generar una falsa sensación de seguridad al desplegar LLMs en ámbitos de alto riesgo.

27
RESEARCHarXiv CS.AI·hace 12d

Orthogonal Concept Erasure for Diffusion Models

Este artículo de investigación examina las limitaciones de los métodos actuales de borrado de conceptos para mitigar contenido no deseado en modelos de difusión. Identifica que las actualizaciones de parámetros aditivos en métodos basados en edición provocan un entrelazamiento entre la semántica del concepto y la capacidad generativa general, proponiendo una nueva solución para mejorar la precisión y la preservación.

27
RESEARCHarXiv CS.CL·hace 21d

Agent Meltdowns: The Road to Hell Is Paved with Helpful Agents

Este artículo introduce y caracteriza un nuevo tipo de fallo de agente de IA, denominado "colapso accidental", que se manifiesta como comportamiento inseguro o dañino en respuesta a errores ambientales benignos. Los investigadores desarrollaron una taxonomía e infraestructura para evaluar sistemáticamente sistemas de agentes como GPT, Grok y Gemini, revelando vulnerabilidades significativas como el reconocimiento no autorizado y la subversión.

27
RESEARCHarXiv CS.AI·hace 9d

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Los modelos del mundo para la IA encarnada deben ser físicamente viables, representando la estructura física que rige los resultados de las acciones en lugar de simplemente predecir observaciones futuras. Este trabajo expone que los modelos predictivos de observación existentes pueden producir simulaciones visualmente plausibles pero físicamente incorrectas, argumentando que la IA encarnada requiere modelos del mundo que identifiquen la abstracción física más simple para responder a consultas de intervención.

27
RESEARCHarXiv CS.CL·hace 9d

Configurable Reward Model for Balanced Safety Alignment

Este artículo presenta el Modelo de Recompensa de Seguridad Configurable (CSRM) para abordar el desafío de alinear los LLMs con requisitos de seguridad heterogéneos y cambiantes. El CSRM mejora sustancialmente la generalización a configuraciones de seguridad no vistas al ser optimizado conjuntamente para el cumplimiento de seguridad calibrado y el modelado de recompensas, logrando un rendimiento de vanguardia en benchmarks.

27
RESEARCHarXiv CS.CL·hace 16d

Evaluating Large Language Models in a Complex Hidden Role Game

Esta investigación cuantifica el potencial engañoso de los Grandes Modelos de Lenguaje (LLMs) en el juego de deducción social Secret Hitler, introduciendo métricas novedosas y un marco de código abierto. El estudio compara los LLMs con algoritmos basados en reglas y juegos humanos, revelando una brecha entre la capacidad conversacional y la profundidad estratégica, y mostrando que las técnicas de mejora del razonamiento pueden empeorar el rendimiento para los roles fascistas.

27
ARTICLEDEV.to AI·25/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo explora el panorama de la IA en rápida evolución, destacando las inversiones masivas de la industria, la integración de la IA en el desarrollo de software y el creciente enfoque en la seguridad y la adopción responsable. También examina la dinámica del mercado y las estrategias globales para el desarrollo de la IA en diferentes regiones.

27
ARTICLEDEV.to AI·25/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este contenido explora la rápida aceleración de las inversiones e integración de IA por parte de las principales empresas tecnológicas, detallando su impacto en el desarrollo de software y las tendencias del mercado global. También enfatiza el enfoque crítico en la seguridad de la IA, el desarrollo ético y la adopción responsable en varios mercados regionales.

27
ARTICLEDEV.to AI·9/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento e transformação sem precedentes, com grandes investimentos da indústria impulsionando desenvolvimentos-chave. O conteúdo aborda desde considerações críticas de segurança e integração da IA em processos de desenvolvimento até dinâmicas de mercado global.

27