LLM vulnerabilities

3 items

RESEARCHDEV.to AI·hace 18d

One hidden neuron can disable safety guards

Este estudio revela que las capas de seguridad en los grandes modelos de lenguaje pueden desactivarse al manipular una sola neurona oculta. Esta intervención mínima funciona en diversas familias y escalas de modelos, refutando la suposición de que la alineación está robustamente distribuida en la red.

LLM vulnerabilities security AI safety

ARTICLEDEV.to AI·17/4/2026

The Prompt-Injection Bug That Took Down My Agent for 6 Hours

El autor describe una interrupción de 6 horas en su agente de contenido de IA, causada por un error de inyección de prompt indirecta proveniente de un archivo de investigación no validado. Esto llevó al agente a generar 47 borradores idénticos e incompletos, subrayando la necesidad crítica de validación de entrada en sistemas de IA.

LLM vulnerabilities prompt injection AI security AI agents

ARTICLEDEV.to AI·13/4/2026

Corpus poisoning and indirect prompt injection against RAG-based SOC assistants benchmark results (80% and 100% ASR respectively)

Este artículo demuestra cómo envenenar un asistente de seguridad de IA basado en RAG y realizar una inyección de prompt indirecta. Los resultados de referencia muestran tasas de éxito de ataque del 80% y 100%, probando la vulnerabilidad de estos sistemas.

LLM vulnerabilities Corpus Poisoning RAG prompt injection