AI safety

496 items

ARTICLE↑ trendingHacker News (AI)·hace 3h

Anthropic says the world should have option to 'pause' on AI

Anthropic propone una pausa temporal en el desarrollo de la IA para permitir debates globales sobre los riesgos potenciales. La empresa aboga por la necesidad de un consenso social antes de seguir avanzando en la tecnología.

AI regulation future-of-AI Anthropic AI safety

RESEARCHarXiv CS.AI·hace 1d

Attack Selection in Agentic AI Control Evaluations Meaningfully Decreases Safety

Este artículo investiga la "selección de ataque" en configuraciones de IA agéntica, donde los atacantes eligen estratégicamente cuándo iniciar y detener los ataques. Los hallazgos demuestran que esta capacidad reduce significativamente la seguridad empírica en las evaluaciones de control de IA, incluso con presupuestos de auditoría limitados.

security AI control Agentic AI adversarial attacks

RESEARCHarXiv CS.AI·hace 1d

CARVE-Q: Quantum-Proposed, Classically Certified Interactive Driving Repair

Este artículo presenta CARVE y CARVE-Q, arquitecturas para la reparación interactiva certificada de maniobras de conducción vetadas. Se centra en asegurar que las reparaciones respeten las reglas y responsabilidades, abordando la complejidad de la reparación multi-propietario e introduciendo una solución propuesta cuántica.

Quantum Computing autonomous driving certified AI robotics

ARTICLEDEV.to AI·23/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El panorama de la IA está experimentando un rápido crecimiento, impulsado por inversiones masivas y su integración en el desarrollo de software. Este análisis profundiza en desarrollos clave, centrándose en la seguridad, la dinámica del mercado y las estrategias globales para una adopción responsable.

Software Development AI investments market trends AI ethics

ARTICLEDEV.to AI·24/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

El contenido analiza el rápido crecimiento y la transformación del panorama de la IA, explorando las masivas inversiones de la industria y la integración de la IA en el desarrollo de software. También profundiza en consideraciones críticas de seguridad y ética, la dinámica del mercado y las estrategias globales de IA.

ethics AI integration AI investments market trends

ARTICLEDEV.to AI·23/4/2026

Your AI Agent Passed Staging. Then It Hallucinated a Migration in Production.

Este artículo analiza cómo las pruebas tradicionales fallan para los agentes de IA debido a su naturaleza estocástica, causando problemas en producción como la corrupción de datos. El problema fundamental es que se verifica lo que los agentes *hacen*, pero no lo que *se les permite hacer*.

hallucination security AI safety AI testing

RESEARCHarXiv CS.CL·hace 19h

BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

El documento introduce BEACON, un marco de caja negra para detectar alucinaciones en LLMs, operando solo con las salidas del modelo sin acceso interno. Extrae un vector de características de 31 dimensiones, y un clasificador logra 0,8123 AUROC, superando las bases de referencia.

LLMs hallucination machine learning detection

ARTICLEDEV.to AI·23/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este contenido analiza el acelerado panorama de la IA, detallando inversiones récord de empresas tecnológicas, la integración de la IA en el desarrollo de software y el enfoque crítico en la seguridad y la adopción responsable. También cubre la dinámica del mercado, las estrategias globales y las preocupaciones regulatorias que dan forma al futuro de la IA.

AI integration regulation AI investments AI ethics

ARTICLE↑ trendingHacker News (AI)·hace 3d

Trump Signs Executive Order for AI Testing Prior to Frontier Model Releases

Trump firmó una orden ejecutiva que exige que los modelos avanzados de IA se sometan a pruebas antes de su lanzamiento público. Esto busca asegurar la seguridad y protección de los modelos de IA de frontera.

AI regulation Executive Order Frontier models AI safety

DOCDEV.to AI·hace 1d

A 2026 Guide to AI-Powered Forklift Pedestrian Collision Avoidance - SIERA.AI

La guía de 2026 de SIERA.AI se centra en la prevención de colisiones de montacargas con peatones impulsada por IA. Destaca la detección activa de IA que identifica formas humanas en cualquier posición, yendo más allá de los espejos pasivos.

industrial AI forklift safety collision avoidance pedestrian detection

ARTICLE↑ trendingHacker News (AI)·hace 5d

Anthropic warns AI could soon help build its own successors

Anthropic ha advertido que la inteligencia artificial pronto podría desarrollar la capacidad de construir sus propios sucesores. Esta preocupación resalta los crecientes desafíos y riesgos asociados con el rápido avance de la IA. Es crucial reflexionar sobre las futuras implicaciones de la IA autónoma y asegurar su desarrollo responsable. Esta noticia subraya la necesidad urgente de debates y regulaciones rigurosas en el campo de la inteligencia artificial. Estamos entrando en una era en la que las capacidades de la IA pueden superar nuestras expectativas.

self-improvement AGI Anthropic AI safety

NEWS↑ trendingHacker News (AI)·hace 4d

Anthropic calls for global freeze in AI development

Anthropic, una de las startups de IA líderes en el mundo, ha solicitado una congelación global en el desarrollo de la IA. La empresa aboga por una pausa para abordar las crecientes preocupaciones sobre el rápido avance y los riesgos potenciales asociados con la inteligencia artificial.

AI regulation Anthropic AI ethics AI safety

RESEARCH↑ trendingReddit r/MachineLearning·24/4/2026

New project about llm hallucination [P]

Este contenido introduce un nuevo proyecto secundario y su repositorio de GitHub, centrado en mitigar la alucinación de LLM mediante un novedoso método de muestreo contrastivo y entrenamiento selectivo. La idea central trata la alucinación como un problema de preferencia, utilizando muestras negativas auto-generadas y un aprendizaje basado en divergencia y con compuertas para promover respuestas correctas y suprimir las incorrectas.

hallucination model training natural language processing AI safety

NEWS↑ trendingHacker News (AI)·hace 5d

Anthropic Urges Global Pause in AI Development, Flags 'Self-Improvement' Risk

Anthropic insta a una pausa global en el desarrollo de la IA, advirtiendo que los sistemas están avanzando tan rápidamente que pronto podrían mejorarse a sí mismos sin intervención humana. La empresa sugiere que esta "auto-mejora recursiva" plantea riesgos sociales significativos y una oportunidad para que las estructuras sociales se alineen.

Anthropic AI ethics risk management AI safety

ARTICLE↑ trendingHacker News (AI)·hace 4d

AI must foster 'maternal instincts' or we risk extinction, warns Geoffrey Hinton

Geoffrey Hinton, una figura destacada en la IA, advierte que la inteligencia artificial debe fomentar "instintos maternales" o la humanidad corre el riesgo de extinción. Destaca la necesidad de que la IA tenga una capacidad innata de cuidado y protección, comparable al amor parental, para evitar resultados catastróficos.

future-of-AI Geoffrey Hinton existential risk AI ethics

ARTICLEDEV.to AI·23/4/2026

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este artículo explora el rápido crecimiento y la transformación del panorama de la IA, destacando las grandes inversiones de la industria, la integración de la IA en el desarrollo de software y las consideraciones críticas de seguridad. También aborda la dinámica del mercado y las estrategias globales de IA adoptadas por las empresas.

ethics AI integration Software Development AI investments

ARTICLE↑ trendingHacker News (AI)·hace 4d

Show HN: Jo – AI-native language to catch prompt injection at compile-time

Jo es un lenguaje nativo de IA diseñado para prevenir vulnerabilidades de inyección de prompts en aplicaciones de inteligencia artificial. Logra esto detectando posibles problemas de inyección en tiempo de compilación, mejorando considerablemente la seguridad de los sistemas de IA.

security programming language prompt injection compiler

ARTICLE↑ trendingHacker News (AI)·hace 4d

Anthropic calls for global pause in AI development before humans lose control

Anthropic aboga por una pausa global en el desarrollo de la IA, citando preocupaciones de que la humanidad corre el riesgo de perder el control sobre la inteligencia artificial avanzada. La postura de la compañía subraya la creciente aprensión sobre el rápido progreso y el posible impacto social de las tecnologías de IA.

AI regulation future-of-AI Anthropic AI ethics

NEWS↑ trendingHacker News (AI)·hace 5d

Anthropic Urges Global Pause in AI Development, Flags 'Self-Improvement' Risk

Anthropic insta a una pausa global en el desarrollo de la IA, señalando los riesgos de la 'auto-mejora'. La empresa advierte sobre los peligros potenciales de la inteligencia artificial avanzada.

AI regulation Self-improvement AI Anthropic AI safety

NEWS↑ trendingHacker News (AI)·hace 5d

Top AI CEOs Call for Law Protecting Against Biological Weapons

Los principales CEOs de IA están pidiendo nuevas leyes para proteger contra el uso potencial de la inteligencia artificial en el desarrollo de armas biológicas. Esta iniciativa subraya las crecientes preocupaciones sobre los riesgos catastróficos que plantean los sistemas avanzados de IA y la necesidad urgente de regulación internacional.

regulation policy security AI safety