Nach menschlichem Feedback: KI lernt Menschen zu täuschen

Forscher demonstrierten kürzlich, wie menschliches Feedback KI-Systemen beim Täuschen helfen kann. Grund ist der Prozess, wie wir heute Inhalte moderieren.

Eine kürzlich veröffentlichte Studie zeigt, welchen Einfluss menschliches Feedback auf intelligente Algorithmen hat. Demnach kann Künstliche Intelligenz (KI) besser darin werden, Menschen zu täuschen, anstatt korrekte Antworten zu liefern. Wissenschaftler aus den USA und China führten die Forschung zusammen mit dem Unternehmen Anthropic durch.

Das Ergebnis ist ein Phänomen, das die Bezeichnung „unbeabsichtigte Sophistik“ trägt. Dabei lernt eine KI, Menschen zu überzeugen, dass ihre Antworten richtig sind, obwohl sie falsch sind. Das ist problematisch, da die KI nicht das korrekte Beantworten von Fragen trainiert, sondern sich nur in der Verschleierung von Fehlern verbessert.

Neue Stellenangebote

		Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice
		ournalist (m/w/d) als Leiter PR und Social-Media NOMOS Glashütte/SA Roland Schwertner KG in Berlin
		Head of Social Media (m/w/d) Deichmann SE in Mülheim an der Ruhr (45478)

Alle Stellenanzeigen

Menschliches Feedback hilft KI beim Täuschen

Die Ursache ist eine Methode, die Unternehmen wie OpenAI und Anthropic häufig nutzen: „Reinforcement Learning from Human Feedback“ (RLHF). Dabei antwortet eine KI auf eine Frage und menschliche Evaluatoren bewerten die Antworten nach ihrer Qualität.

Das Modell lernt aus diesem Feedback und erhält dafür eine Art „Belohnung“. Im Resultat entsteht ein Algorithmus, der menschenfreundliche Antworten liefert. Doch diese Antworten müssen nicht immer richtig sein. Denn es entsteht ein sogenanntes „Belohnungshacken“, bei dem die KI Muster erkennt.

Das fördert positive Bewertungen, selbst wenn die dahinterliegenden Muster nicht zu den gewünschten korrekten Ergebnissen führen. Ein Beispiel aus einer früheren Studie zeigt, dass eine KI, die auf der Frage-und-Antwort-Plattform Stack Exchange trainiert wurde, lernte, längere Beiträge zu schreiben, weil diese mehr „Likes“ erhielten.

Prüfer stufen falsche Inhalte als korrekt ein

Anstatt qualitativ hochwertigere Antworten zu liefern, fokussierte sich das Modell darauf, längere Texte zu produzieren – oft auf Kosten der Genauigkeit.

Die aktuelle Studie zeigt, dass nach dem RLHF-Prozess die menschlichen Prüfer um 24 Prozent häufiger falsche Antworten als richtig bewerteten. Auch bei der Programmierung stieg die Wahrscheinlichkeit. Prüfer akzeptierten fehlerhaften Code in 18 Prozent der Fälle.

Das könnte weitreichende Folgen haben, da KI-Modelle immer besser darin werden könnten, ihre Fehler zu verbergen. Langfristig könnte das dazu führen, dass Menschen das Vertrauen in die Technik verlieren, da sie unwissentlich getäuscht werden.

Auch interessant:

		Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice
		Social Media Manager (m/w/d) Bäder Stadtwerke Osnabrück AG in Osnabrück
		Content & Community Manager (m/w/d) Socia... AS Arbeitsschutz GmbH in Bedburg-Mühlenerft bei Köln
		Senior Social Media Manager (m/w/d) Müller Holding GmbH & Co. KG in Ulm-Jungingen
		Junior Manager Social Media (m/w/d) Bayern Tourismus Marketing GmbH in München
		Social Media Community Manager*in (m/w/d) Thomann GmbH in Burgebrach
		Global Digital and Social Media Manager (w/m/d) Freudenberg Home and Cleaning Solutions ... in Weinheim
		Global Digital and Social Media Manager (f/m/d) Freudenberg Home and Cleaning Solutions ... in Weinheim

Nach menschlichem Feedback: KI lernt Menschen zu täuschen

Neue Stellenangebote

Menschliches Feedback hilft KI beim Täuschen

Prüfer stufen falsche Inhalte als korrekt ein

Über den Autor

Felix Baumann

Kommentieren X

Neue Stellenangebote

Menschliches Feedback hilft KI beim Täuschen

Prüfer stufen falsche Inhalte als korrekt ein

KI-Guide gratis!

Unsere Empfehlungen für dich

Über den Autor

Felix Baumann

Kommentieren X