LLM vulnerabilities

3 items

RESEARCHDEV.to AI·vor 18T

One hidden neuron can disable safety guards

Diese Studie zeigt, dass Sicherheitsvorkehrungen in großen Sprachmodellen durch das Kippen eines einzelnen verborgenen Neurons deaktiviert werden können. Diese minimale Intervention funktioniert über verschiedene Modellfamilien und -größen hinweg und widerlegt die Annahme, dass die Ausrichtung robust im gesamten Netzwerk verteilt ist.

LLM vulnerabilities security AI safety

ARTICLEDEV.to AI·4/17/2026

The Prompt-Injection Bug That Took Down My Agent for 6 Hours

Der Autor beschreibt einen sechsstündigen Ausfall seines KI-Content-Agenten, verursacht durch einen indirekten Prompt-Injection-Bug aus einer unvalidierten Forschungsdatei. Dies führte zur Generierung von 47 identischen, unfertigen Entwürfen und unterstreicht die kritische Notwendigkeit der Eingabevalidierung in KI-Systemen.

LLM vulnerabilities prompt injection AI security AI agents

ARTICLEDEV.to AI·4/13/2026

Corpus poisoning and indirect prompt injection against RAG-based SOC assistants benchmark results (80% and 100% ASR respectively)

Dieser Artikel zeigt, wie man einen RAG-basierten KI-Sicherheitsassistenten vergiftet und indirekte Prompt-Injektionen durchführt. Benchmark-Ergebnisse zeigen Angriffs-Erfolgsraten von 80% und 100%, was die Anfälligkeit dieser Systeme beweist.

LLM vulnerabilities Corpus Poisoning RAG prompt injection