LLM vulnerabilities

3 items

RESEARCHDEV.to AI·il y a 19j

One hidden neuron can disable safety guards

Cette étude révèle que les couches de sécurité dans les grands modèles linguistiques peuvent être désactivées en manipulant un seul neurone caché. Cette intervention minimale fonctionne sur diverses familles et échelles de modèles, remettant en question l'hypothèse que l'alignement est robustement réparti dans le réseau.

LLM vulnerabilities security AI Safety

ARTICLEDEV.to AI·17/04/2026

The Prompt-Injection Bug That Took Down My Agent for 6 Hours

L'auteur décrit une panne de 6 heures de son agent de contenu IA, causée par un bug d'injection de prompt indirecte provenant d'un fichier de recherche non validé. Cela a conduit l'agent à générer 47 brouillons identiques et inachevés, soulignant le besoin critique de validation des entrées dans les systèmes d'IA.

LLM vulnerabilities prompt injection AI security AI Agents

ARTICLEDEV.to AI·13/04/2026

Corpus poisoning and indirect prompt injection against RAG-based SOC assistants benchmark results (80% and 100% ASR respectively)

Cet article démontre comment empoisonner un assistant de sécurité IA basé sur RAG et effectuer une injection de prompt indirecte. Les résultats de référence montrent des taux de réussite d'attaque de 80 % et 100 %, prouvant la vulnérabilité de ces systèmes.

LLM vulnerabilities Corpus Poisoning RAG prompt injection