Meta soll für das KI-Training seines Sprachmodells Llama das Urheberrecht von Tausenden Buchautoren verletzt haben. Nun flattern dem Facebook-Konzern mehrere Sammelklagen ins Haus.
Künstliche Intelligenz benötigt Unmengen an Daten. Doch nicht bei allen ist eindeutig, ob sie für das KI-Training überhaupt verwendet werden dürfen.
Problematisch ist dabei in erster Linie das Urheberrecht von Texten, Bildern oder Videos. Und genau das soll Meta massenweise verletzt haben. Denn der US-Konzern sieht sich aktuell mit mehreren Sammelklagen konfrontiert. Der Vorwurf: Meta soll das Urheberrecht von Tausenden Buchautor:innen verletzt haben.
Neue Stellenangebote
Growth Marketing Manager:in – Social Media GOhiring GmbH in Homeoffice |
||
Referent*in Unternehmenskommunikation (m/w/d) Social Media-Marketing & Grafikdesign BFT GmbH in Aachen |
||
Digital- & Social Media-Managerin / -Manager (w/m/d) Berliner Stadtreinigungsbetriebe (BSR) in Berlin |
Hat Meta für KI-Training das Urheberrecht verletzt?
Eine dieser Sammelklagen hat Romanautor Christopher Farnsworth vor einem US-Gericht eingereicht. Darin wirft er Meta vor, seine Bücher und die anderer Autor:innen unerlaubt für das KI-Training von Llama verwendet zu haben.
Er fordert Schadensersatz und will die Verwendung seiner Werke für das KI-Training stoppen. Damit ist er nicht allein. Denn auch weitere Autor:innen haben vor demselben Gericht ähnliche Sammelklagen eingereicht.
Dazu zählen unter anderem Comedian Sarah Silverman sowie Autor Ta-Nehisi Coates. Auch sie werfen Meta vor, das Urheberrecht ihrer Werke verletzt zu haben, da der Konzern diese für das KI-Training verwendet haben soll.
Woher stammen die Daten für das KI-Training?
Hintergrund ist ein Datensatz namens „The Pile“, der 886 Gigabyte groß ist und zahlreiche Texte in englischer Sprache beinhaltet. Dieser Datensatz stammt von EleutherAI aus dem Jahr 2020 und wurde für das Training von großen KI-Sprachmodellen zur Verfügung gestellt.
Eine Unterkategorie von „The Pile“ namens Books3 beinhaltet 196.640 urheberrechtlich geschützte Bücher. Darin sind unter anderem Werke von Stephen King, Margaret Atwood und eben auch von Romanautor Christopher Farnsworth enthalten.
Laut Klageschrift ist bestätigt, dass Meta den Datensatz „The Pile“ heruntergeladen und „als Teil seiner Arbeit bei der Ausbildung und Entwicklung seiner LLMs“ eingesetzt hat. Aus diesem Grund wirft Farnsworth Meta vor, die in Books3 enthaltenen Bücher für das KI-Training seiner Llama-Modelle benutzt und so das Urheberrecht verletzt zu haben.
Das Problem von KI und Urheberrecht
Der Konflikt zwischen KI-Unternehmen und Urheber:innen ist nicht neu. Unternehmen, die Daten für das Training ihrer KI-Modelle benötigen, beziehen sich oft auf die Fair-Use-Doktrin des US-Urheberrechts.
Diese Doktrin sieht vor, dass urheberrechtlich geschützte Werke für Bereiche wie öffentliche Bildung auch unautorisiert genutzt werden können. Das zielt vor allem auf die Wissenschaft und die Arbeit von Forschenden und Studierenden ab.
Doch viele große Player in der KI-Industrie beziehen sich ebenfalls auf die Fair-Use-Doktrin und werfen den Kläger:innen vor, den Fortschritt im Bereich Künstliche Intelligenz auszubremsen.
Doch während sich die KI-Konzerne hierauf berufen, fordern Urheber:innen eine Kompensation für ihre Werke. Das Training von KI-Modellen werde zwar oft mit dem Lernen beim Menschen verglichen. Allerdings würden Menschen, die aus Büchern lernen, diese kaufen oder in Bibliotheken leihen, wie es in der Sammelklage von Farnsworth heißt.
Menschen würden sich die Werke „rechtmäßig beschaffen und so zumindest ein gewisses Maß an Entschädigung für Autoren und Schöpfer bieten“. Weiter erklärte er: „Meta tut dies nicht und hat sich die Inhalte der Autoren angeeignet, um eine Maschine zu schaffen, die genau die Art von Inhalten zu generieren, für die die Autoren normalerweise bezahlt werden.“
Auch interessant:
Kommentieren