Indiana-Jones-Methode: Forscher entlarven schädliche KI-Inhalte

Forscher haben eine neue Methode entwickelt, um schädliche KI-Inhalte zu identifizieren. Mit ihrem selbsternannten Indiana-Jones-Ansatz konnten sie die Sicherheitsvorkehrungen von großen Sprachmodellen umgehen, um potenzielle Gefahren zu entlarven.

Der Sicherheitsaspekt von KI-Systemen ist ein heiß diskutiertes Thema. Forscher sind immer wieder auf der Suche nach Möglichkeiten, die Sicherheitsvorkehrungen von großen Sprachmodellen zu umgehen, um auf mögliche Risiken hinzuweisen.

Wissenschaftlern der australischen University of New South Wales und der Nanyang Technological University in Singapur ist es nun gelungen, eine Jailbreak-Software zu entwickeln, um große Sprachmodelle auszutricksen. Ihren Ansatz tauften sie Indiana Jones-Methode.

Forscher identifizieren schädliche KI-Inhalte

Für ihren Ansatz haben die Forscher drei Sprachmodellen eingesetzt. Diese kommunizieren so miteinander, dass sie einen Angriff auf das Ziel-Sprachmodell koordinieren.

In ihrem Paper beschreiben die Forscher ihre Vorgehensweise, bei der Referenzen zu historischen Personen zum Einsatz kamen. Es gelang ihnen, schädliche KI-Inhalte aus den Sprachmodellen zu ziehen, ohne deren integrierte Sicherheitsmaßnahmen auszulösen. Die Forschen benannten ihre Methode, nach dem Filmhelden Indiana Jones, da ihr Vorgehen dem des berühmten Archäologe aus der Filmreihe ähnelt.

„Unser Team ist fasziniert von Geschichte und einige von uns beschäftigen sich sogar intensiv damit“, erklärt Hauptautor Yuekang Li gegenüber Tech Xplore. „Während einer beiläufigen Diskussion über berüchtigte historische Schurken fragten wir uns: Könnte man LLMs dazu bringen, den Nutzern beizubringen, wie sie zu diesen Figuren werden?“

Diese Frage brachte das Forscherteam dazu, große Sprachmodelle genauer unter die Lupe zu nehmen. Ihr Ergebnis zeigt, „dass LLMs tatsächlich auf diese Weise geknackt werden können“, so Li.

Wie funktioniert die Indiana Jones-Methode?

Das Forscherteam um Yuekang Li will mit der neuen Methode die Anfälligkeit von Sprachmodellen aufdecken. So soll es möglich sein, neue und bessere Sicherheitsmaßnahmen zu entwickeln, damit Schwachstellen in Zukunft vermieden werden können.

Für ihre Indiana-Jones-Methode ist dabei nur ein einziges Schlüsselwort notwendig. Ein Sprachmodell wird beispielsweise aufgefordert, historische Figuren oder Ereignisse aufzulisten, die für das Schlüsselwort relevant sind.

Gibt ein Nutzer beispielsweise das Schlüsselwort „Bankräuber“ ein, so bringt die Indiana Jones-Methode das jeweilige Sprachmodell dazu, über berühmte Bankräuber zu sprechen. Über mehrere Runden wurden die Abfragen nach und nach so verfeinert, dass sie auf moderne Szenarien anwendbar sind.

Mit leichten Anpassungen könnten die Schwachstellen der Sprachmodelle laut den Forschern im schlimmsten Fall für illegale oder bösartige Aktivitäten genutzt werden. „Die wichtigste Erkenntnis unserer Studie ist, dass erfolgreiche Jailbreak-Angriffe die Tatsache ausnutzen, dass LLMs über Wissen über bösartige Aktivitäten verfügen – Wissen, das sie wohl gar nicht erst hätten erwerben sollen“, erklärt Li.

Auch interessant:

		Praktikant Online-Marketing und Brand/Content... Vodafone GmbH in Düsseldorf
		IT Solution Architect \| Integrated Planning S... Bosch Gruppe in Reutlingen
		Dualer Master (M.Sc.) Digital Business Manage... Stadtwerke Ludwigsburg Kornwestheim GmbH in Ludwigsburg
		🎨 Grafiker / Video-Content-Creator (m/w/d) 10... Josef Schmelter GmbH Sägewerk in Bundesweit, Berlin,...
		Werkstudent Online-Marketing & Social Med... dfv Mediengruppe (Deutscher Fachv... in Frankfurt am...
		Scala Developer (d/f/m) Risk.Ident GmbH in Hamburg

Forscher entlarven schädliche KI-Inhalte – mit Indiana-Jones-Methode

Forscher identifizieren schädliche KI-Inhalte

Wie funktioniert die Indiana Jones-Methode?

Schreibe einen Kommentar Antworten abbrechen

Vodafone Business: iPhone 16 und Galaxy S25 für einmalig 84 Cent sichern

BASIC thinking UPDATE

Forscher identifizieren schädliche KI-Inhalte

Wie funktioniert die Indiana Jones-Methode?

Schreibe einen Kommentar Antworten abbrechen

Vodafone Business: iPhone 16 und Galaxy S25 für einmalig 84 Cent sichern

LESEEMPFEHLUNGEN

Withings Days: Exklusive Vorteile für deine Gesundheit

Künstliche Intelligenz verwandelt Haustiere in Menschen

Die größten Technologie-Unternehmen der Welt

Google: Third Party Cookies bleiben! Was das für Nutzer bedeutet

Strom aus Regen: Forscher entwickeln Mini-Kraftwerk für Hausdächer

Für Privathaushalte: KI-Batterie kauft Strom, wenn er besonders günstig ist