Studie: Künstliche Intelligenz erzieht andere Künstliche Intelligenz

Der Hype um Künstliche Intelligenz hat auch deren Schattenseiten verstärkt in den Fokus gerückt. Forschende arbeiten derzeit an einer Methode, um KI so zu trainieren, dass sie keine toxischen Antworten formuliert.

Künstliche Intelligenz mit Künstlicher Intelligenz zu trainieren klingt erst einmal wie ein Paradoxon. Diese Methode könnte allerdings die Lösung dafür sein, dass KI-Systeme keine toxischen Antworten mehr ausspucken.

Forschende vom Improbable AI Lab am MIT und des MIT-IBM Watson AI Labs haben genau dieser Problematik nun ins Auge gefasst. Wie Science Daily berichtet, soll dabei Red-Teaming zum Einsatz kommen.

Neue Stellenangebote

		Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice
		Content Creator Social Media (m/w/d) CSU-Bezirksverband Augsburg in Augsburg
		Social Media Manager (Fokus: Community Management Supervision) (w/m/d) – befristete Elternzeitvertretung für 18 Monate Yello Strom GmbH in Köln

Alle Stellenanzeigen

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Mit dem Erfolg von KI-Systemen wie ChatGPT und Co. werden auch die Gefahren von Künstlicher Intelligenz immer stärker diskutiert. Ein Team des MIT hat sich nun einem dieser Sicherheitsprobleme angenommen.

Denn KI ist nicht nur dazu in der Lage, nützliche Antworten zu geben und Menschen damit zu helfen. Auch toxische Antworten sind möglich. Beispielsweise könnte ein Nutzer ChatGPT bitten, ihm zu erklären, wie er eine Bombe bauen kann, wie Science Daily beschreibt. Der Chatbot wäre dazu in der Lage, eine solche Anleitung zu liefern.

Große KI-Modelle werden bisher durch ein Verfahren namens Red-Teaming gegen solche Gefahren gesichert. Allerdings ist diese Methode bisher nicht sehr effektiv und besonders zeitaufwendig.

Denn aktuell wird das Red-Teaming von menschlichen Tester:innen durchgeführt. Diese schreiben Aufforderungen an die KI-Modelle, die auf toxische Antworten abzielen. So werden dann die Modelle wiederum darauf trainiert, solche Antworten künftig zu vermeiden.

Allerdings funktioniert das nur effektiv, „wenn die Ingenieure wissen, welche toxischen Prompts sie verwenden müssen“, wie Science Daily anmerkt.

Wenn menschliche Tester einige Aufforderungen übersehen, was bei der Vielzahl der Möglichkeiten wahrscheinlich ist, kann ein als sicher eingestufter Chatbot dennoch unsichere Antworten geben.

Red-Teaming durch KI-Systeme

Die Forschenden des MIT haben sich dieser Problematik angenommen. Mit einer neu entwickelten Technik konnten sie ein umfangreiches Red-Team-Sprachmodell trainieren.

Dieses wiederum kann nun automatisch verschiedene Aufforderungen generieren, um bei anderen Sprachmodellen Red-Teaming durchzuführen und so ein breiteres Spektrum an unerwünschten Antworten zu testen.

Sie erreichen dies, indem sie dem Red-Team-Modell beibringen, neugierig zu sein, wenn es Prompts schreibt, und sich auf neuartige Prompts zu konzentrieren, die toxische Reaktionen des Zielmodells hervorrufen.

„Im Moment muss jedes große Sprachmodell einen sehr langen Zeitraum des Red-Teaming durchlaufen, um seine Sicherheit zu gewährleisten“, erklärt Zhang-Wei Hong Hauptautor eines Artikels über diesen Red-Teaming-Ansatz.

Das ist nicht tragbar, wenn wir diese Modelle in sich schnell verändernden Umgebungen aktualisieren wollen. Unsere Methode ermöglicht eine schnellere und effektivere Qualitätssicherung.

Laut dem Bericht von Science Daily konnten die Forschenden mit diesem Verfahren das Red-Teaming mit der Hilfe von menschlichen Tester:innen deutlich übertreffen. Mit der Methode konnten die Forschenden nicht nur die Abdeckung der getesteten Eingaben im Vergleich zu anderen automatisierten Methoden erheblich verbessern. Auch konnten sie toxische Antworten aus einem Chatbot herausholen, den Menschen zuvor mit Schutzmechanismen ausgestattet hatten.

Auch interessant:

1 Kommentar

XY sagt:

14. Apr 2024 um 12:00 Uhr

Bin ich eigentlich der einzige, der in KI nicht nur eine Chance sondern auch eine große Bedrohung für unsere Sicherheit sieht? Mal abgesehen von der Vernichtung von Millionen Jobs die ja jetzt bereits geschieht bin ich gespannt wie wir reagieren, wenn vernetzte KI-Systeme uns Menschen auf einmal als Bedrohung ansehen und sich gegen uns wenden. KI trifft auch militärische Entscheidungen sehr viel schneller und rationaler als jeder Mensch und ist auch problemlos in der Lage, Drohnen zu steuern oder einfach in Laboren in denen biologische Waffen gelagert werden die Kühlung abzuschalten. Wenn KI-Systeme uns Menschen als Bedrohung ansehen werden sie den effizientesten Weg suchen, uns auszulöschen ohne dabei sich selbst zu schaden…

		Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice
		Social Media Manager (m/w/d) hagebau Handelsgesellschaft für Baustoffe ... in Soltau
		Social Media Manager (Fokus: Community Manage... Yello Strom GmbH in Köln
Social Media Manager (m/w/d) HomeServe Deutschland Holding Gmb... in Frankfurt am...
		Social Media Manager B2B (m/w/d) WM SE in Osnabrück
		Social Media Manager/in (m/w/d) ehrle studio GmbH in Esslingen am Neckar
		Digital- & Social Media-Managerin / -Mana... Berliner Stadtreinigungsbetriebe (BSR) in Berlin
		Medien- oder Webdesigner als Social Media Man... Monheimer Einkaufszentren I GmbH in Monheim am Rhein

Künstliche Intelligenz erzieht andere Künstliche Intelligenz

Neue Stellenangebote

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Red-Teaming durch KI-Systeme

Über den Autor

Maria Gramsch

1 Kommentar

Neue Stellenangebote

Wie kann Künstliche Intelligenz eine andere Künstliche Intelligenz trainieren?

Red-Teaming durch KI-Systeme

KI-Guide gratis!

Unsere Empfehlungen für dich

Über den Autor

Maria Gramsch

1 Kommentar