Technologie

Copyright-Traps: So findest du heraus, ob deine Daten zum KI-Training genutzt werden

Daten KI-Training, KI, Künstliche Intelligenz, Copyright-Traps
Adobe Stock / Urupong
geschrieben von Maria Gramsch

Du fragst dich, ob deine Daten für das KI-Training verwendet werden? Forschende haben sogenannte Copyright-Traps entwickelt, um genau das herauszufinden.

Es ist wie im Sport: Hinter einem guten KI-Modell steht auch ein gutes Training. Doch eine Künstliche Intelligenz benötigt für dieses Training Unmengen an Daten. Viele Urheber:innen sehen das jedoch kritisch, weil sie eventuell nicht möchten, dass Unternehmen ihre Inhalte oder Werke ohne Zustimmung für das Training von KI-Modellen nutzen.

Forschende des Imperial College London haben nun eine Möglichkeit entwickelt, um genau diese Daten aus dem KI-Training zu entlarven. Dabei handelt es sich um sogenannte Copyright-Traps, die der KI sozusagen eine Falle stellen.

Welche Daten nutzt KI für das Training?

Für die Einhaltung des Urheberrechts sind Copyright-Traps keine Neuigkeit. Doch nun können sie auch im Bereich Künstliche Intelligenz angewendet werden.

Yves-Alexandre de Montjoye, Professor am Imperial College London, der die Arbeit leitet, hat die Ergebnisse auf der International Conference on Machine Learning präsentiert. „Es besteht ein völliger Mangel an Transparenz in Bezug darauf, welche Inhalte zum Trainieren von Modellen verwendet werden, und wir glauben, dass dies verhindert, dass es ein echtes Gleichgewicht zwischen KI-Firmen und Urhebern von Inhalten gibt“, erklärt der Wissenschaftler.

Wie funktionieren Copyright-Traps?

Die Funktionsweise von diesen Fallen ist recht einfach. So können Urheber:innen in einem Datensatz beispielsweise ein Stück Text verstecken, das aber eigentlich überhaupt keinen Sinn ergibt. Nutzt ein KI-Modell dieses später, wird ersichtlich, dass der Datensatz für das KI-Training verwendet wurde.

Das Team des Imperial College London hat Sätze entwickelt, die im Englischen beispielsweise so aussehen: „It’s my favorite time of the year: the time between New Year’s and Easter; there are so many“. Übersetzt bedeutet das so viel wie: „Es ist meine Lieblingszeit im Jahr: die Zeit zwischen Neujahr und Ostern; es gibt so viele“.

So kannst du Copyright-Traps nutzen

Willst du auch eine solche Falle zum Einsatz bringen, kannst du bei GitHub fündig werden. Dort sind bereits Copyright Traps für Large Language Models verfügbar. Diese bieten dir das Skript und erzeugen auch Textfallen für die Überprüfung von KI.

Künftig dürfte dies allerdings noch einfacher werden. Denn das Team um Yves-Alexandre de Montjoye arbeitet an einem Tool. Mit diesem sollen Urheber:innen dann Copyright-Traps erstellen können, um sie in ihre Texte zu integrieren.

Auch interessant:

Über den Autor

Maria Gramsch

Maria ist freie Journalistin und technische Mitarbeiterin an der Universität Leipzig. Seit 2021 arbeitet sie als freie Autorin für BASIC thinking. Maria lebt und paddelt in Leipzig und arbeitet hier unter anderem für die Leipziger Produktionsfirma schmidtFilm. Sie hat einen Bachelor in BWL von der DHBW Karlsruhe und einen Master in Journalistik von der Universität Leipzig.