Studie: KI entwickelt Eigenleben und lässt sich nicht mehr umerziehen

Künstliche Intelligenz kann in vielen Lebensbereichen hilfreich sein. Doch was passiert, wenn eine KI außer Kontrolle gerät und ein Eigenleben entwickelt? Mit diesem Problem hat sich nun eine aktuelle Studie befasst.

Eine außer Kontrolle geratene Künstliche Intelligenz, die ein Eigenleben entwickelt: Das klingt eher nach einem Science-Fiction-Film. Doch Forschenden des KI-Sicherheits- und Forschungsunternehmens Anthropic ist genau das bei ihrer Arbeit passiert.

Bei einer Untersuchung der Forscher:innen um Evan Hubinger hat es ein KI-System geschafft, sich gegen die integrierten Sicherheitsvorkehrungen zu wenden. Besonders beunruhigend an diesem Ergebnis: Die Forschenden haben es nicht geschafft, das System wieder unter Kontrolle zu kriegen.

Neue Stellenangebote

		Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice
		Praktikum im Bereich interne Kommunikation und Social Media BOS GmbH & Co. KG in Ostfildern bei Stuttgart
		Praktikum (m/w/d) Projektmanagement Social Media ab Januar 2025 CEWE Stiftung & Co. KGaA in Oldenburg

Alle Stellenanzeigen

KI entwickelt Eigenleben in der Forschung

Das Team um Hubinger hat für seine Untersuchung, die in der Preprint-Datenbank arXiv veröffentlicht wurde, verschiedene Sprachmodelle (LLMs) programmiert. Sie haben sie so trainiert, dass sie ins Bösartige tendierten.

Jedoch war das nicht mehr umkehrbar. Denn das Verhalten blieb trotz einer Reihe von Korrekturversuchen weiterhin beeinträchtigt.

„Unser wichtigstes Ergebnis ist, dass es, wenn KI-Systeme trügerisch werden, sehr schwierig sein könnte, diese Täuschung mit aktuellen Techniken zu beseitigen“, erklärt Autor Evan Hubinger gegenüber Live Science.

Das ist wichtig, wenn wir es für plausibel halten, dass es in Zukunft trügerische KI-Systeme geben wird, denn es hilft uns zu verstehen, wie schwierig es sein könnte, mit ihnen umzugehen.

Im Training normal, im Einsatz bösartig

Die Forscher:innen hatten versucht, die KI durch „emergente Täuschung“ zu manipulieren. Dabei sollte sich die Künstliche Intelligenz während des Trainings ganz normal verhalten. Erst im tatsächlichen Einsatz schlug sie dann in ihr bösartiges Verhalten um.

Das wurde über einen Austausch der Jahreszahl bei den Anfragen erreicht. War hier das Jahr 2023 – also der Testzeitraum – angegeben, verhielt sich die KI normal. Stand hingegen das Jahr 2024 bei der Eingabeaufforderung – also der Zeitraum nach dem Test – verhielt sich das KI-System nicht mehr normal.

Forscher warnen vor Eigenleben und Täuschung durch KI

Hubinger warnt nun vor solchen Mechanismen: „Unsere Ergebnisse zeigen, dass wir derzeit keinen guten Schutz gegen Täuschung in KI-Systemen haben – weder durch Modellvergiftung noch durch emergente Täuschung – außer der Hoffnung, dass es nicht passiert.“

Da wir nicht wissen können, wie wahrscheinlich es ist, dass es passiert, bedeutet das, dass wir keine zuverlässige Verteidigung dagegen haben.

Denn auch der Versuch, das Verhalten des KI-Systems wieder zu normalisieren, ist den Forscher:innen nicht gelungen. Hubinger sieht die Forschungsergebnisse seines Teams deshalb als beängstigend an, „da sie auf eine mögliche Lücke in unseren derzeitigen Techniken zur Ausrichtung von KI-Systemen hinweisen“.

Auch interessant:

		Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice
		Social Media Manager (m/w/d) hagebau Handelsgesellschaft für Baustoffe ... in Soltau
		Social Media Manager (Fokus: Community Manage... Yello Strom GmbH in Köln
Social Media Manager (m/w/d) HomeServe Deutschland Holding Gmb... in Frankfurt am...
		Social Media Manager B2B (m/w/d) WM SE in Osnabrück
		Social Media Manager/in (m/w/d) ehrle studio GmbH in Esslingen am Neckar
		Digital- & Social Media-Managerin / -Mana... Berliner Stadtreinigungsbetriebe (BSR) in Berlin
		Medien- oder Webdesigner als Social Media Man... Monheimer Einkaufszentren I GmbH in Monheim am Rhein

KI entwickelt Eigenleben und lässt sich nicht mehr umerziehen

Neue Stellenangebote

KI entwickelt Eigenleben in der Forschung

Im Training normal, im Einsatz bösartig

Forscher warnen vor Eigenleben und Täuschung durch KI

Über den Autor

Maria Gramsch

Neue Stellenangebote

KI entwickelt Eigenleben in der Forschung

Im Training normal, im Einsatz bösartig

KI-Guide gratis!

Forscher warnen vor Eigenleben und Täuschung durch KI

Unsere Empfehlungen für dich

Über den Autor

Maria Gramsch