LLM vulnerabilities

3 items

RESEARCHDEV.to AI·18d atrás

One hidden neuron can disable safety guards

Este estudo revela que a segurança em grandes modelos de linguagem pode ser desativada ao manipular um único neurônio oculto. Essa intervenção mínima funciona em várias famílias e escalas de modelos, desafiando a suposição de que o alinhamento é robustamente distribuído na rede.

LLM vulnerabilities security AI safety

ARTICLEDEV.to AI·17/04/2026

The Prompt-Injection Bug That Took Down My Agent for 6 Hours

O autor descreve uma interrupção de 6 horas em seu agente de conteúdo de IA, causada por um bug de injeção de prompt indireta vindo de um arquivo de pesquisa não validado. Isso resultou na geração de 47 rascunhos idênticos e inacabados, destacando a necessidade crítica de validação de entrada em sistemas de IA.

LLM vulnerabilities prompt injection AI security AI agents

ARTICLEDEV.to AI·13/04/2026

Corpus poisoning and indirect prompt injection against RAG-based SOC assistants benchmark results (80% and 100% ASR respectively)

Este artigo demonstra como envenenar um assistente de segurança de IA baseado em RAG e realizar injeção de prompt indireta. Os resultados de benchmark mostram taxas de sucesso de ataque de 80% e 100%, provando a vulnerabilidade desses sistemas.

LLM vulnerabilities Corpus Poisoning RAG prompt injection