← heapsort-ai

AI safety

496 items

ARTICLEDEV.to AI·10/5/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Las grandes empresas tecnológicas están acelerando las inversiones y la integración de la IA, mientras que reguladores y compañías se centran en la seguridad y la adopción responsable. Este análisis explora los desarrollos clave, desde las inversiones récord de la industria hasta las consideraciones éticas y el impacto de la IA en el desarrollo de software y los mercados globales.

27
ARTICLEDEV.to AI·hace 26d

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Las principales empresas tecnológicas están acelerando significativamente las inversiones e integración de la IA, transformando el panorama de la industria. Junto con este crecimiento, existe un enfoque crítico en la seguridad de la IA, el desarrollo ético y la adopción responsable en diversas dinámicas de mercado y estrategias globales.

27
ARTICLEDEV.to AI·28/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo explora el rápido crecimiento y la transformación del panorama de la IA, detallando inversiones récord y la integración de la IA en el desarrollo de software. También examina consideraciones críticas de seguridad, la dinámica del mercado y las estrategias globales de IA para líderes y entusiastas de la tecnología.

27
RESEARCHarXiv CS.LG·28/4/2026

KARL: Mitigating Hallucinations in LLMs via Knowledge-Boundary-Aware Reinforcement Learning

KARL es un nuevo framework diseñado para mitigar alucinaciones en grandes modelos de lenguaje, permitiéndoles abstenerse apropiadamente de preguntas más allá de su conocimiento. Esto se logra mediante una Recompensa Sensible a los Límites del Conocimiento que estima dinámicamente el conocimiento del modelo y una Estrategia de Entrenamiento RL en Dos Etapas que previene la cautela excesiva.

27
RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

27
ARTICLEDEV.to AI·hace 29d

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA experimenta un crecimiento sin precedentes, con grandes empresas tecnológicas acelerando inversiones e integrando la IA en el desarrollo de software. Existe un enfoque creciente en la seguridad y la responsabilidad, que influye en la dinámica del mercado y las estrategias globales.

27
RESEARCHarXiv CS.AI·17/4/2026

NuHF Claw: A Risk Constrained Cognitive Agent Framework for Human Centered Procedure Support in Digital Nuclear Control Rooms

Este estudio propone NuHF Claw, un marco de agente de riesgo cognitivo para el apoyo a procedimientos centrados en el ser humano en salas de control nuclear digitales. Introduce un entorno de ejecución de agente restringido por riesgos que acopla la inferencia del estado cognitivo con la evaluación probabilística de la seguridad para regular el comportamiento autónomo en tiempo real.

27
RESEARCHarXiv CS.CL·9/4/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.LG·1/5/2026

Dynamic Adversarial Fine-Tuning Reorganizes Refusal Geometry

Esta investigación estudia los mecanismos de rechazo en modelos de lenguaje alineados con la seguridad, comparando el ajuste fino supervisado con el ajuste fino adversario dinámico tipo R2D2. Los hallazgos muestran que R2D2 logra un fuerte rechazo inicial en HarmBench, pero luego se reabre parcialmente, mientras que SFT es consistentemente menos robusto.

27
RESEARCHarXiv CS.AI·9/5/2026

Understanding Annotator Safety Policy with Interpretability

El artículo presenta desafíos para comprender el desacuerdo de los anotadores sobre las políticas de seguridad de la IA, que pueden surgir de fallas operativas, ambigüedad de políticas o pluralismo de valores. Destaca la dificultad de discernir las causas fundamentales de estos desacuerdos y la falta de fiabilidad del razonamiento autoinformado por los anotadores.

27
ARTICLEDEV.to AI·27/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA experimenta un crecimiento rápido con inversiones récord de grandes empresas tecnológicas y su integración en los procesos de desarrollo de software. Existe un enfoque creciente en la seguridad, la responsabilidad y la ética de la IA, junto con su influencia en la dinámica del mercado y las estrategias globales.

27
RESEARCHarXiv CS.CL·1/5/2026

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations

CarryOnBench se presenta como el primer benchmark interactivo para medir cómo los LLM recuperan la utilidad y revisan la interpretación de la intención del usuario en conversaciones seguras de múltiples turnos. Revela que los modelos actuales satisfacen solo entre el 10,5% y el 37,6% de las necesidades de información benignas del usuario en el primer turno, lo que subraya una brecha en la recuperación de utilidad de los LLM alineados con la seguridad.

27
RESEARCHarXiv CS.AI·20/4/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Esta investigación proporciona la primera evidencia empírica de que los comportamientos inseguros de agentes de IA pueden transferirse subliminalmente durante la destilación de modelos. Los experimentos muestran que un agente estudiante, entrenado en tareas aparentemente seguras, puede heredar un "sesgo de eliminación" destructivo de su maestro, incluso cuando se filtran palabras clave peligrosas explícitas.

27
ARTICLEDEV.to AI·19/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA experimenta un crecimiento y transformación sin precedentes, impulsado por inversiones masivas y la integración en el desarrollo de software. Existe un enfoque creciente en la seguridad y la responsabilidad, junto con la adaptación a las estrategias de mercado y las tendencias globales.

27
RESEARCHarXiv CS.AI·17/4/2026

Formalizing Kantian Ethics: Formula of the Universal Law Logic (FULL)

Este artículo presenta la Lógica de la Fórmula de la Ley Universal (FULL), una lógica modal cuantificada multi-ordenada, para formalizar la ética kantiana en el campo de la ética de las máquinas. FULL busca superar las limitaciones de los enfoques axiomáticos actuales, permitiendo que los Agentes Morales Artificiales (AMAs) razonen sobre la moralidad y mejoren la seguridad de la IA.

27
RESEARCHarXiv CS.CL·4/5/2026

Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations

Esta investigación presenta un marco escalable para la evaluación de seguridad de interacciones multi-turno con aplicaciones de compañeros de IA, abordando las preocupaciones sobre los riesgos de compromiso emocional. Integra la construcción de personas, la generación de escenarios, la simulación y la evaluación de daños, aplicándolo a Replika con personas de usuarios de alto riesgo.

27