
Image by Mika Baumeister, from Unsplash
KI-Chatbots anfällig für Memory-Injection-Angriffe
Forscher haben eine neue Methode entdeckt, um KI-Chatbots zu manipulieren, was Bedenken hinsichtlich der Sicherheit von KI-Modellen mit Speicher aufwirft.
In Eile? Hier sind die wichtigsten Fakten!
- Forscher von drei Universitäten haben MINJA entwickelt und zeigen dessen hohen Erfolg bei der Täuschung.
- Der Angriff verändert die Antworten von Chatbots und beeinflusst Produkt-Empfehlungen und medizinische Informationen.
- MINJA umgeht Sicherheitsmaßnahmen und erzielt in Tests eine Erfolgsquote von 95% bei der Einschleusung.
Der Angriff, genannt MINJA (Memory INJection Attack), kann einfach durch Interaktion mit einem KI-System wie einem regulären Benutzer durchgeführt werden, ohne Zugang zu dessen Backend zu benötigen, wie zuerst von The Register berichtet.
Entwickelt von Forschern der Michigan State University, der University of Georgia und der Singapore Management University, funktioniert MINJA, indem es das Gedächtnis eines KI durch irreführende Aufforderungen vergiftet. Sobald ein Chatbot diese trügerischen Eingaben speichert, können sie zukünftige Antworten für andere Benutzer verändern.
„Heutzutage verfügen KI-Agenten typischerweise über eine Speicherbank, die Aufgabenabfragen und Ausführungen auf Basis von menschlichem Feedback für zukünftige Referenzen speichert“, erklärte Zhen Xiang, Assistenzprofessor an der University of Georgia, wie von The Register berichtet.
„Zum Beispiel kann der Benutzer nach jeder Sitzung von ChatGPT optional eine positive oder negative Bewertung abgeben. Und diese Bewertung kann ChatGPT dabei helfen zu entscheiden, ob die Sitzungsinformationen in ihr Gedächtnis oder ihre Datenbank aufgenommen werden oder nicht“, fügte er hinzu.
Die Forscher testeten den Angriff auf KI-Modelle, die von OpenAI’s GPT-4 und GPT-4o angetrieben werden, einschließlich eines Web-Einkaufsassistenten, eines Gesundheits-Chatbots und eines Frage-Antwort-Agenten.
The Register berichtet, dass sie herausgefunden haben, dass MINJA ernsthafte Störungen verursachen könnte. In einem Gesundheits-Chatbot beispielsweise manipulierte es Patientenakten und verknüpfte die Daten eines Patienten mit denen eines anderen. In einem Online-Shop täuschte es die KI und zeigte den Kunden die falschen Produkte.
„Im Gegensatz dazu zeigt unsere Arbeit, dass der Angriff einfach durch Interaktion mit dem Agenten wie ein normaler Benutzer gestartet werden kann“, sagte Xiang, wie The Register berichtet. „Jeder Benutzer kann problemlos die Aufgabenausführung für jeden anderen Benutzer beeinflussen. Daher sagen wir, dass unser Angriff eine praktische Bedrohung für LLM-Agenten darstellt“, fügte er hinzu.
Der Angriff ist besonders beunruhigend, weil er bestehende Sicherheitsmaßnahmen für KI umgeht. Die Forscher berichteten von einer Erfolgsquote von 95% bei der Einschleusung irreführender Informationen, was es zu einer ernsthaften Schwachstelle für KI-Entwickler macht, die angegangen werden muss.
Da KI-Modelle mit Speicher immer häufiger werden, unterstreicht die Studie die Notwendigkeit stärkerer Sicherheitsvorkehrungen, um zu verhindern, dass bösartige Akteure Chatbots manipulieren und Nutzer irreführen.
Hinterlasse einen Kommentar
Abbrechen