Durchgesickerte Daten enthüllen, dass China eine gigantische KI-Zensurmaschine entwickelt hat, die gezielt Inhalte überwacht und aussortiert, die von der Regierung als sensibel eingestuft werden. Das System unterdrückt automatisch Berichte über Armut, Korruption und Machtmissbrauch.
Bias, sprich Voreingenommenheit, ist eines der größten Problem im Bereich der Künstlichen Intelligenz. Das Phänomen beschreibt die systematische Verzerrung von Ergebnissen. Dabei werden bestimmte Gruppen oder Individuen beispielsweise bevorzugt oder benachteiligt.
Die Ursachen und Risiken von Bias in KI-Systemen sind vielschichtig und tief in den technischen Aspekten der KI-Entwicklung verwurzelt. Denn KI-Sprachmodelle sind immer nur so gut, wie die Daten, mit denen sie trainiert werden.
Diese Schwachstelle der Künstlichen Intelligenz kann auch ausgenutzt werden. Erst kürzlich zeigte eine Untersuchung, wie Russland ChatGPT und Co. mit propagandistischen Inhalten flutet und beeinflusst. Ähnliches scheint auch in China der Fall zu sein, wie TechCrunch berichtet.
Demnach hat das Nachrichtenportal einen Datensatz eingesehen, mit dem die chinesische Regierung KI-Systeme in China zensiert. Zahlreiche Beispiele zeigen, dass eine Zenzumaschine automatisch Berichte über Armut, Korruption oder Machtmissbrauch filtert.
China unterdrück KI-Inhalte mit Zensurmaschine
Die von TechCrunch eingesehene Datenbank enthält mehr als 133.000 Beispiele, die in ein KI-Sprachmodell eingeflossen sind. So wurde eine KI befähigt, automatisch jeden Inhalt zu markieren, der von der chinesischen Regierung als sensibel angesehen wird.
Beispiele sind Beschwerden über Armut im ländlichen China. Auch Berichte über ein korruptes Mitglied der Kommunistischen Partei oder korrupte Polizisten zählen dazu.
Der Forscher Xiao Qiang von der UC Berkeley befasst sich mit chinesischer Zensur und hat den Datensatz ebenfalls analysiert. Gegenüber TechCrunch erklärte er, dass es sich um einen „eindeutigen Beweis“ dafür handle, dass die chinesische Regierung oder mit ihr verbundene Unternehmen Large Language Models (LLMs) zur Unterdrückung einsetzen.
Im Gegensatz zu traditionellen Zensurmechanismen, die sich auf menschliche Arbeitskraft für die stichwortbasierte Filterung und manuelle Überprüfung verlassen, würde ein LLM, das auf solche Anweisungen trainiert ist, die Effizienz der staatlich geführten Informationskontrolle erheblich verbessern.
Auf Nachfrage wies die chinesische Botschaft in Washington, D.C., die Vorwürfe in einem Statement zurück. Man widersetze sich „grundlosen Angriffen und Verleumdungen gegen China“. Das Land lege großen Wert auf die Entwicklung ethischer KI.
Woher stammt der Datensatz?
Der Sicherheitsforscher NetAskari in hat den Datensatz einer ungesicherten Datenbank auf einem Baidu-Server entdeckt und TechCrunch zur Verfügung gestellt.
Die Urheber des Datensatzes sind jedoch nicht bekannt. Allerdings heißt es, die Daten seien für die „öffentliche Meinungsarbeit“ gedacht. Ein Experte hat gegenüber TechCrunch erklärt, dass diese Formulierung ein starker Hinweis darauf ist, dass der Datensatz den Zielen der chinesischen Regierung dienen soll.
Aus den Daten geht außerdem hervor, dass sie aktuell sind. Die letzten Einträge stammen aus dem Dezember 2024.
Wie fällt unter die KI-Zensur von China?
Aus dem Datensatz geht eine Sprache hervor, die „auf unheimliche Weise an die ChatGPT-Eingabeaufforderung erinnert“. Ein unbekanntes LLM wird dabei aufgefordert, Inhalte zu sensiblen Themen aus den Bereichen Politik, soziales Leben und Militär zu filtern.
Diese Inhalte werden mit „höchster Priorität“ eingestuft und müssten sofort gekennzeichnet werden. Höchste Priorität haben dabei Skandale aus den Bereichen Umweltverschmutzung und Lebensmittelsicherheit. Aber auch Finanzbetrug und Arbeitskonflikte gehören dazu.
Es handelt sich also um Themen, die in China schnell auch mal zu öffentlichen Protesten oder sozialen Unruhen führen können. Auch „politische Satire“ sowie alles zum Thema „Taiwan-Politik“ erhält demnach das Label höchste Priorität.
Auch interessant: