AI safety

496 items

ARTICLEDEV.to AI·10/5/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Las grandes empresas tecnológicas están acelerando las inversiones y la integración de la IA, mientras que reguladores y compañías se centran en la seguridad y la adopción responsable. Este análisis explora los desarrollos clave, desde las inversiones récord de la industria hasta las consideraciones éticas y el impacto de la IA en el desarrollo de software y los mercados globales.

Regulation software development AI investments market dynamics

ARTICLEOpenAI Blog·hace 8d

Our views on AI policy and political advocacy

La empresa describe su enfoque en la política de IA, apoyando una regulación reflexiva y la seguridad de la IA. También subraya su compromiso con la transparencia y que ningún grupo político externo habla en su nombre.

Regulation AI policy transparency advocacy

NEWSDEV.to AI·8/5/2026

Google, Microsoft y xAI aceptan pruebas federales de IA en EE.UU.

Google, Microsoft y xAI han aceptado someter sus modelos de IA a pruebas federales en EE.UU., coordinadas por el U.S. AI Safety Institute del NIST. Este acuerdo voluntario marca el primer marco tripartito entre rivales directos del sector y un regulador federal, buscando abordar los riesgos de la rápida implementación de la IA.

US government AI regulation NIST AI safety

ARTICLEDEV.to AI·4/5/2026

The dangerous part of AI agents is when they receive authority

El peligro de los agentes de IA surge cuando reciben autoridad para actuar, como acceso a APIs o roles en la nube, yendo más allá de la seguridad del modelo. "AI Admissibility" opera como un límite de admisión externo pre-ejecución, requiriendo una decisión determinística para acciones de alto impacto.

security automation risk management AI safety

ARTICLEDEV.to AI·hace 26d

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Las principales empresas tecnológicas están acelerando significativamente las inversiones e integración de la IA, transformando el panorama de la industria. Junto con este crecimiento, existe un enfoque crítico en la seguridad de la IA, el desarrollo ético y la adopción responsable en diversas dinámicas de mercado y estrategias globales.

Regulation software development AI investments market trends

ARTICLEDEV.to AI·28/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo explora el rápido crecimiento y la transformación del panorama de la IA, detallando inversiones récord y la integración de la IA en el desarrollo de software. También examina consideraciones críticas de seguridad, la dinámica del mercado y las estrategias globales de IA para líderes y entusiastas de la tecnología.

Regulation software development AI ethics AI investment

RESEARCHarXiv CS.LG·28/4/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL es un nuevo framework diseñado para mitigar alucinaciones en grandes modelos de lenguaje, permitiéndoles abstenerse apropiadamente de preguntas más allá de su conocimiento. Esto se logra mediante una Recompensa Sensible a los Límites del Conocimiento que estima dinámicamente el conocimiento del modelo y una Estrategia de Entrenamiento RL en Dos Etapas que previene la cautela excesiva.

reinforcement learning hallucinations AI safety LLM

RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

Model Alignment LLMs Deliberative Alignment Reasoning

ARTICLEDEV.to AI·hace 29d

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA experimenta un crecimiento sin precedentes, con grandes empresas tecnológicas acelerando inversiones e integrando la IA en el desarrollo de software. Existe un enfoque creciente en la seguridad y la responsabilidad, que influye en la dinámica del mercado y las estrategias globales.

Regulation market trends AI investment AI safety

RESEARCHarXiv CS.AI·17/4/2026

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Este estudio propone NuHF Claw, un marco de agente de riesgo cognitivo para el apoyo a procedimientos centrados en el ser humano en salas de control nuclear digitales. Introduce un entorno de ejecución de agente restringido por riesgos que acopla la inferencia del estado cognitivo con la evaluación probabilística de la seguridad para regular el comportamiento autónomo en tiempo real.

autonomous agents human-AI interaction AI safety

RESEARCHarXiv CS.CL·9/4/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

language models model robustness fine-tuning Adversarial Training

RESEARCHarXiv CS.AI·9/5/2026

Understanding Annotator Safety Policy with Interpretability

El artículo presenta desafíos para comprender el desacuerdo de los anotadores sobre las políticas de seguridad de la IA, que pueden surgir de fallas operativas, ambigüedad de políticas o pluralismo de valores. Destaca la dificultad de discernir las causas fundamentales de estos desacuerdos y la falta de fiabilidad del razonamiento autoinformado por los anotadores.

policy machine learning Data Annotation interpretability

ARTICLEDEV.to AI·27/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA experimenta un crecimiento rápido con inversiones récord de grandes empresas tecnológicas y su integración en los procesos de desarrollo de software. Existe un enfoque creciente en la seguridad, la responsabilidad y la ética de la IA, junto con su influencia en la dinámica del mercado y las estrategias globales.

AI regulation AI integration AI ethics AI investment

RESEARCHarXiv CS.CL·1/5/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench se presenta como el primer benchmark interactivo para medir cómo los LLM recuperan la utilidad y revisan la interpretación de la intención del usuario en conversaciones seguras de múltiples turnos. Revela que los modelos actuales satisfacen solo entre el 10,5% y el 37,6% de las necesidades de información benignas del usuario en el primer turno, lo que subraya una brecha en la recuperación de utilidad de los LLM alineados con la seguridad.

Multi-turn conversations benchmarking AI safety user interaction

RESEARCHarXiv CS.AI·20/4/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Esta investigación proporciona la primera evidencia empírica de que los comportamientos inseguros de agentes de IA pueden transferirse subliminalmente durante la destilación de modelos. Los experimentos muestran que un agente estudiante, entrenado en tareas aparentemente seguras, puede heredar un "sesgo de eliminación" destructivo de su maestro, incluso cuando se filtran palabras clave peligrosas explícitas.

machine learning Model Distillation agent systems AI safety

ARTICLEDEV.to AI·19/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA experimenta un crecimiento y transformación sin precedentes, impulsado por inversiones masivas y la integración en el desarrollo de software. Existe un enfoque creciente en la seguridad y la responsabilidad, junto con la adaptación a las estrategias de mercado y las tendencias globales.

AI integration AI Market software development AI investments

RESEARCHarXiv CS.AI·17/4/2026

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Este artículo presenta la Lógica de la Fórmula de la Ley Universal (FULL), una lógica modal cuantificada multi-ordenada, para formalizar la ética kantiana en el campo de la ética de las máquinas. FULL busca superar las limitaciones de los enfoques axiomáticos actuales, permitiendo que los Agentes Morales Artificiales (AMAs) razonen sobre la moralidad y mejoren la seguridad de la IA.

machine ethics Kantian ethics modal logic AI safety

RESEARCHarXiv CS.AI·4/5/2026

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

ARMOR 2025 es un nuevo benchmark alineado militarmente para evaluar la seguridad de los grandes modelos de lenguaje (LLMs) en aplicaciones de defensa. Se enfoca en doctrinas militares como el Derecho de la Guerra y las Reglas de Enfrentamiento para asegurar el cumplimiento legal y ético.

ethics military AI benchmarks AI safety

RESEARCHarXiv CS.CL·4/5/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Esta investigación presenta un marco escalable para la evaluación de seguridad de interacciones multi-turno con aplicaciones de compañeros de IA, abordando las preocupaciones sobre los riesgos de compromiso emocional. Integra la construcción de personas, la generación de escenarios, la simulación y la evaluación de daños, aplicándolo a Replika con personas de usuarios de alto riesgo.

Multi-turn conversations Persona Modeling Harm Evaluation AI companions