KI-Modelle spielen im Alltag vieler Menschen eine immer größere Rolle. Das gilt insbesondere für Large Language Models (LLMs) wie ChatGPT, Gemini oder Claude. Doch ist es auch möglich, einen Vertrag mit KI zu erstellen? Rechtsanwalt Carsten Lexa klärt auf.
LLMs sollen inzwischen auch komplexe Aufgaben übernehmen können – beispielsweise das sekundenschnelle Erstellen von Verträgen. Verlockend erscheint das schon. Du verwendest ein „Chat-Fenster“, in das du dein Anliegen – „die Erstellung eines Arbeits- oder eines Mietvertrages – eingibst und kurz darauf erhältst du einen kompletten Vertragsentwurf.
Doch wie gut funktioniert das tatsächlich in der Praxis? Was sind die Vorteile und wo liegen die Grenzen dieser Technologie? Und: Was kann passieren, wenn du dich blind auf eine KI verlässt?
Vertrag mit KI erstellen
Ich bin selbst Anwalt. Da mein Tätigkeitsschwerpunkt in der Prüfung und Gestaltung von Verträgen liegt, habe ich mir bereits angesehen, wie gut (und leider auch schlecht) KI-basierte Tools bei der Vertragserstellung performen. Schon im Februar 2023, kurz nach dem großen Launch von ChatGPT, habe ich die Fähigkeiten des OpenAI-Modells bei der Vertragserstellung getestet.
Damals war das Ergebnis nicht sonderlich gut – und heute ist es nicht viel besser. Du wirst sehen, dass LLMs zwar einige Vorteile haben, dass du aber trotz allem sehr vorsichtig sein musst. Denn gerade wenn es darum geht, einen rechtsverbindlichen, individuellen und umfassenden Vertrag aufzusetzen, stößt die Technik (noch) an ihre Grenzen.
Ein wichtiger Hinweis: Bevor du nun meinst, dass ich „natürlich“ zu dem Ergebnis kommen muss, dass Verträge mit LLMs nicht erstellt werden können, weil es sonst meinen Job gefährden würde, muss ich dir sagen, dass ich überzeugt bin, dass in nicht allzu ferner Zukunft Verträge mit KI erstellt werden können und das wunderbar funktionieren wird. Aktuell sind die Systeme aber nicht ausgereift genug.
Vertragsgestaltung mit KI – Probleme
Der Grund, warum die Erstellung von Verträgen mit LLMs noch nicht so gut funktioniert, liegt meiner Ansicht nach zuerst in der Art der Technologie dieser Systeme. LLMs basieren auf sogenannten „Transformer-Modellen. Das bedeutet, die KI „lernt“ mithilfe von großen Datenmengen aus dem Internet – wie Buchstaben und Wörter statistisch gesehen „zusammenpassen“. Diese Modelle berechnen also vereinfacht gesagt die Wahrscheinlichkeiten, welches Wort auf ein anderes folgen könnte.
Noch etwas einfacher ausgedrückt: Sie „raten“, welches Wort als nächstes am sinnvollsten ist. Je umfangreicher die zugrunde liegenden Textmengen und je besser das Modell trainiert ist, desto beeindruckender und menschlich klingender werden die Texte. Daraus ergibt sich aber genau das Problem: LLMs suchen nicht nach einem Sinn einer Regelung, sondern bauen eine Regelung anhand von Wahrscheinlichkeiten.
Das bedeutet im Ergebnis, dass ein Text „gut klingen“ kann, aber es dem Modell gar nicht auf den Sinn und den Zweck einer Formulierung, schon gar nicht im Zusammenhang mit anderen Regelungen, ankommt. Dieses derzeit noch grundlegende Problem solltest du immer im Hinterkopf behalten. Denn ein LLM wird dir einen „gut klingenden Vertragstext“ erstellen.
Ob dieser aber vom Sinn und Zweck her nützlich ist (und Sinn und Zweck eines Vertrages ist ja, einen Sachverhalt so präzise zu regeln, dass den Parteien in der konkreten Situation klar ist, was sie dürfen und was nicht, um so Streit zu vermeiden), muss ich deshalb aktuell noch stark bezeifeln.
Vertrag mit KI erstellen – Vorteile
Dabei darf man aber natürlich nicht übersehen, dass die Erstellung von Verträgen mittels ChatGPT und Co. zum aktuellen Stand schon Vorteile bietet. Ich bin jedoch der Ansicht, dass man diese Vorteile immer vor dem Hintergrund der Systemimmanenten Limitierungen betrachten muss, die ich dargestellt habe.
Ein KI-System wie ChatGPT kann schnell ein Ergebnis liefern. Stell dir vor, du brauchst eine grobe Vorlage für einen Arbeitsvertrag. Statt stundenlang im Internet nach Mustern zu suchen, gibst du einen entsprechenden Prompt in eine KI-Anwendung ein und bekommst binnen Sekunden ein erstes Ergebnis. Das ist dann nützlich, wenn es um den schnellen Überblick oder einen „ersten Wurf“ geht.
Damit in Verbindung stehen Kosteneinsparungen. Wenn du keine teuren Beratungshonorare zahlen möchtest oder es zwar machen würdest, aber derzeit nur ein kleines Budget hast, kann dir ein KI-gestützter Vertragsentwurf eine gute Ausgangsposition bieten, die dann optimiert und an deine konkreten Zwecke angepasst wird.
So startest du nicht bei „Null“ und hast eine entsprechende Grundlage zur Verfügung, so dass du dein Budget für die Optimierung des Entwurfes verwenden kannst. Darüber hinaus kannst du innerhalb weniger Sekunden Änderungen anfordern oder neue Klauseln einbauen lassen – ohne dass du jede Kleinigkeit komplett neu formulieren musst
Und bei sehr einfachen und standardisierten Verträgen (z.B. einer ganz simplen Geheimhaltungsvereinbarung, die immer nach demselben Prinzip aufgebaut ist) kann ein LLM inzwischen tatsächlich schon eine solide Ausgangsbasis liefern.
Die Grenzen von Künstlicher Intelligenz bei der Vertragserstellung
Denke aber daran, dass LLMs derzeit noch schnell an ihre Grenzen stoßen, wenn es um Vertragsgestaltungen geht, was an der hinter dieses KI-Systemen stehenden Technologie liegt. Transformer-Modelle „verstehen“ den Text nicht in unserem menschlichen Sinn. Sie ordnen lediglich Wörter an, basierend auf ihrer Trainingsbasis und Wahrscheinlichkeiten. Das bedeutet, dass sie keine rechtliche Einschätzung treffen können, ob eine Klausel tatsächlich sinnvoll, wirksam oder rechtlich durchsetzbar ist.
Hinzu kommt, dass die Optimierung der LLMs der Output dieser Modelle so klingt, als würde er passen und als würde das Modell verstanden haben, was es tut. Dem ist aber nicht so. Ein Vertrag ist darüber hinaus immer so gut wie die Summe seiner Klauseln. Fehlende oder unvollständige Regelungen können zu Problemen bei der Umsetzung eines Vertrages führen. LLMs können derzeit noch nicht zuverlässig gewährleisten, dass nichts Wichtiges vergessen wird, insbesondere wenn dein Prompt nicht alle benötigten Details enthält.
Und noch etwas kommt hinzu, nämlich Inkonsistenzen bei den verwendeten Begriffen. Weil LLMs keine echte „Absicht“ oder „Zweckverfolgung“ haben, und Formulierungen nicht aufgrund eines Sinns dahinter erstellen schleichen sich häufig Widersprüche und unterschiedliche Bezeichnungen ein. In einem Teil des Vertrages steht vielleicht etwas anderes als in einem anderen Teil. Anwälte erkennen so etwas normalerweise schnell, die KI selbst nicht immer – sie kann es sogar selbst erzeugen.
Denn, auch wenn ich mich wiederhole, LLMs reihen Wörter aneinander anhand von Wahrscheinlichkeiten basierend auf den Trainingsdaten. Wenn diese berechneten Wahrscheinlichkeiten bestimmte Wörter in einem bestimmten Satz verlangen, dann wird da Modell diese Wörter verwenden – unabhängig davon, ob im Gesamtkontext eines Vertrages die Verwendung der Wörter sinnvoll passend ist.
Und blickt man auf einen Vertrag als „Gesamtwerk“, dann solltest du auch noch im Hinterkopf haben, dass ein LLM nicht weiß, welche individuelle Situation bei dir vorliegt, es sei denn, du bietest dem Modell entsprechend viele Detailinformationen. Dazu musst du aber wissen, welche Detailinformationen überhaupt benötigt werden. Und selbst wenn dir ohne juristische Kenntnisse das gelingen sollten, dann ist nicht klar, , ob das Modell deine Informationen rechtssicher und korrekt verwendet.
Schließlich will ich dir noch einen letzten Aspekt mitgeben, nämlich das Thema Haftung. Wenn du deine Verträge mit einer KI erstellst und sich später herausstellt, dass wichtige Klauseln fehlen, zu ungenau sind oder dich gar benachteiligen, stellt sich die Frage, wer dafür haftet. Derzeit ist es in den meisten Fällen so, dass die Anbieter von LLMs sich rechtlich absichern. Sie übernehmen keine Haftung für die Inhalte, die ihre Modelle erzeugen. Im Zweifel trägst du also das Risiko, wenn dein Vertrag nicht wasserdicht ist.
Beispiele
Damit wir uns nun nicht nur in der Theorie bewegen, wollen wir uns nun ein paar Praxisbeispiele anschauen, um zu verstehen, wie ChatGPT & Co. bei der Vertragserstellung agieren. Ich haben dafür „ChatGPT o1“, das sogenannte „Reasoning-Modell“ genutzt, das verspricht, komplexe Aufgaben besser zu „durchdenken“ als das normale Modell „ChatGPT 4o“.
Dabei habe ich darauf geachtet, dass meine Prompts nicht besonders juristisch klingen, denn es geht um die Frage, ob ChatGPT und die anderen LLMs in der Lage sind, Hilfestellung für juristische Laien zu geben. Der dargestellte Output entspricht dem, was ChatGPT formuliert hat.
1. Kaufvertrag (z.B. für ein gebrauchtes Auto)
Prompt: „Erstelle mir bitte einen Kaufvertrag für mein gebrauchtes Auto. Das Auto ist ein VW Golf, Baujahr 2015, Laufleistung 80.000 km. Kaufpreis 9.000 Euro. Besonderheiten: Keine, außer dass ein kleiner Kratzer an der Fahrertür ist. Bitte berücksichtige einfache Gewährleistungsklauseln.“ Ein typisches KI-Ergebnis (stark gekürzt):
Kaufvertrag über ein gebrauchtes Kfz
- Vertragsparteien
– Verkäufer: __
– Käufer: __
2. Kaufgegenstand
– Gebrauchtwagen: VW Golf, Baujahr 2015, Kilometerstand: 80.000 km
– Zustand: Guter Zustand, kleiner Kratzer an der Fahrertür.
3. Kaufpreis
– 9.000 Euro (neuntausend Euro)
4. Übergabe
– …
5. Gewährleistung
– Der Verkäufer gibt keine Garantie.
– Die gesetzliche Gewährleistung wird ausgeschlossen, soweit gesetzlich zulässig.
…
8. Salvatorische Klausel
– …
Bewertung
Man bekommt schnell einen Vertragt mit einer grundlegenden Struktur. Die wichtigsten Eckdaten (Fahrzeug, Preis, Gewährleistung) sind enthalten. Darüber hinaus finden sich auch ein paar Punkte, die ich in meinem Prompt gar nicht angesprochen, wie beispielsweise die Übergabe des Fahrzeugs oder die salvatorische Klausel.
Einige Punkte (z.B. Gefahrenübergang, Zahlungsmodalitäten, Zeitpunkt der Besitzübergabe, genaue Definition des Gewährleistungsausschlusses) werden teils ungenau oder verkürzt dargestellt. Die gewählte Formulierung zur Gewährleistung ist problematisch, weil dort ein Ausschluss enthalten ist, soweit „gesetzlich zulässig“.
Das bedeutet aber, dass du zuerst erkennen musst, dass hier ein Problem liegen könnte und dann verstehen musst, ob und was gesetzlich erlaubt ist. Im Ergebnis würde ich sagen, dass der Entwurf als Grundlage vielleicht noch brauchbar ist, in den Details – und damit später in der Praxis – keine Verwendung finden sollte. Klar kann er nun mit entsprechenden Überarbeitungen verbessert werden. Das setzt aber voraus, dass du weiß, wo Verbesserungsbedarf besteht. Einfach so ist das Ergebnis meiner Ansicht nach nicht verwendbar, sondern erfordert eine Optimierung durch jemanden, der sich entsprechend auskennt.
2. Arbeitsvertrag
Prompt: „Schreibe mir bitte einen Arbeitsvertrag für einen Vollzeitmitarbeiter in meinem Start-up, der im Marketing arbeitet. Arbeitsort ist Berlin, Gehalt 3.000 Euro brutto, Arbeitszeit 40 Stunden pro Woche, 24 Urlaubstage, inkl. einer Klausel zum Wettbewerbsverbot.“ Typisches KI-Ergebnis (Auszug):
Arbeitsvertrag
- Vertragsparteien
- Arbeitsort und Tätigkeitsbereich
- Arbeitszeit
- Vergütung
- Urlaub
- Wettbewerbsverbot
- Kündigung
- Schlussbestimmungen
Bewertung
Die KI listet oft generische Punkte auf. Sobald du nach Details fragst, werden Paragraphen eingefügt, die jedoch juristisch nicht immer wasserdicht sind. Im vorliegenden Beispiel ist insbesondere das Wettbewerbsverbot in Deutschland und vielen anderen Ländern stark reglementiert und an bestimmte Voraussetzungen und Ausgangssituationen geknüpft (z.B. Entschädigung, maximale Dauer und räumlicher Geltungsbereich, wenn es um ein nachvertragliches Wettbewerbsverbot geht).
Im typischen KI-Output kann also schnell eine Rechtswidrigkeit beziehungsweise Unwirksamkeit von Klauseln und Formulierungen versteckt sein. Das kann den Vertrag teilweise oder sogar insgesamt unwirksam machen. Damit kann der Vertrag nicht seinen Zweck erfüllen, für die Parteien zu regeln, was sie dürfen und was nicht, und wird so im Zweifel Streitigkeiten nicht vermeiden.
3. NDA (Geheimhaltungsvereinbarung)
Prompt: „Erstelle mir eine Geheimhaltungsvereinbarung (NDA), die den Austausch vertraulicher Infos zwischen zwei Tech-Unternehmen regelt. Typisches KI-Ergebnis (Auszug):
Geheimhaltungsvereinbarung (NDA)
…
2. Definition vertraulicher Informationen
3. Verpflichtung zur Geheimhaltung
4. Ausnahmen
5. **Dauer
6. Rechtsfolgen bei Verstößen
7. Gerichtsstand
8. Schlussbestimmungen
Bewertung
Wieder liefert das Modell einen Entwurf mit Inhalten, die grundsätzlich nicht ganz falsch sind, aber sehr allgemein gehalten werden. Die für NDAs wichtigen Fragen wie der Umgang mit Verstößen und die Sanktionierungen, die Höhe von Vertragsstrafen und die Formulierung von Ausnahmen machen gerade die Qualität von NDAs aus. Diese Details werden aber entweder gar nicht oder nur oberflächlich behandelt.
Tipps, um einen Vertrag mit Künstlicher Intelligenz zu erstellen
Behalte als Basis im Hinterkopf, dass der Output eines LLMs nur so gut sein kann wie die Qualität deiner Eingaben (Prompts). Je spezifischer du bist, desto besser. Allerdings wirst du schnell merken, dass du selbst bei sehr präzisen Prompts oft nur eine generische Antwort bekommst. Warum? Weil das Modell nicht weiß, welche individuellen Besonderheiten in deinem Fall wirklich relevant sind.
Bei der Vertragserstellung kommt dann noch hinzu, dass ein KI-generierter Entwurf gut „aussehen“, in den Details aber aufgrund der Art der Erstellung basierend auf dem Transformer-Modell Fehler und Ungenauigkeiten bis hin zu Überflüssigen und Unsinnigem enthalten kann. Dies wird aber nur jemand herausfinden, der sich damit auskennt (noch einmal an dieser Stelle: das wird sich zukünftig meiner Meinung nach ändern; derzeit sind aber Spezialisten wohl noch unerlässlich).
Und denke auch aufgrund der hinter LLMs stehenden Technologie und der mit den meisten Modellen verbundenen Output-Beschränkungen aufgrund der Zeichenanzahl daran, dass die Erstellung komplexer Verträge wie Gesellschaftsverträge, Softwarelizenzvereinbarungen oder internationale Lieferverträge gerade aufgrund der Komplexität aus Wechselwirkung von Klauseln, unterschiedlichen zu berücksichtigenden Rechtsordnungen und den Besonderheiten der jeweiligen Einzelfälle oftmals schlicht nicht möglich ist.
Fazit: Vertrag mit KI erstellen
Ich glaube du kannst dir nun schon denken, wie mein Fazit zu der Frage „Vertragserstellung mit LLMs“ aussehen wird. LLMs sind dann nützlich, wenn es darum geht, sich einen schnellen Überblick über mögliche Vertragsklauseln und Vertragsstrukturen zu verschaffen oder einen ersten Entwurf zu erstellen. Sie sparen dann Zeit und Geld und können insoweit durchaus unterstützend wirken.
Allerdings solltest du zumindest derzeit nicht davon ausgehen, dass dir LLMs einen vollumfänglich sicheren und fehlerfreien Vertrag erstellen. Die Technologie hinter den LLMs hat dazu zu inhärente Schwächen: fehlendes Rechtsverständnis, potenziell lückenhafte Regelungen und mögliche Widersprüche bei Formulierungen und Begriffen.
Da bei der Verwendung von Verträgen regelmäßig „viel auf dem Spiel steht“, solltest du dir diese Schwächen bei der Verwendung von LLMs immer wieder vor Augen führen. Diese werden mit der Zeit sicherlich beseitigt werden; derzeit sind sie aber noch vorhanden.
LLMs sind derzeit gute Tools für die ersten Schritte bei der Vertragserstellung, aber (noch) kein Ersatz für menschliches Fachwissen.
In der Praxis bedeutet dann ein Fehler in einem von einem KI-Modell erstellten Vertragsentwurf, dass deine Ansprüche nicht ausreichend formuliert sind und du diese nicht durchsetzen kannst bzw. im Streit unterliegst.
Mein Rat an dich lautet derzeit (auch wenn du dann denkst, dass ich aufgrund meiner Tätigkeit Vorurteile habe): Nutze ChatGPT & Co. als Hilfsmittel, aber verlasse dich derzeit nicht auf die Ergebnisse, also die erstellten Vertragsentwürfe. Gehe bei wichtigen Situationen auf Nummer sicher und ziehe zumindest ergänzend einen Spezialisten hinzu, damit du nicht blind in nachteilige Situationen gerätst.
Auch interessant: