legal

KI-Training mit Daten: Darf deine KI das?

Ein nachdenklicher Roboter

Aktuelle Verfahren gegen OpenAI zeigen: Rechtliche Fragen beginnen bei KI nicht erst bei der Nutzung. Entscheidend ist bereits, mit welchen Daten ein KI-System trainiert wird.

Im viel beachteten Verfahren GEMA gegen Open AI vor dem LG München I ging es um den Vorwurf, dass ChatGPT auf einfache Eingabe hin urheberrechtlich geschützte Liedtexte (u. a. „Über den Wolken“ von Reinhard Mey) ganz oder nahezu wortgleich wiedergeben konnte. Auch der aktuelle Fall Penguin Random House gegen OpenAI zeigt, dass die Diskussion weitergeht: Hier geht es um von der KI ausgespielte Inhalte, die der Kinderbuchreihe „Der kleine Drache Kokosnuss“ auffällig nahegekommen sein sollen.

Für Online-Händler*innen ist das kein rein theoretisches Thema. KI wird im Online-Handel längst für die Erstellung von Produkttexten, Marketinginhalten oder zur Beantwortung von Kundenanfragen eingesetzt. Einzelne Unternehmen justieren die vortrainierten Sprachmodelle zudem nach, damit diese später besser der sog. Corporate Identity entsprechen. Daher stellt sich dann auch die Frage: Welche Daten dürfen überhaupt in KI-Trainings einfließen und welche rechtlichen Grenzen gelten dabei?

Was ist mit „KI-Training“ gemeint?

KI-Training ist letztlich der „Lernprozess“, damit das KI-System überhaupt funktionieren kann. Vereinfacht gesagt wird ein KI-System mit großen Datenmengen „gefüttert“. Es erkennt darin Muster und lernt daraus, wie Sprache oder Inhalte funktionieren. Auf dieser Grundlage kann es später neue Inhalte erstellen oder Anfragen beantworten.

Die dafür benötigten Daten lassen sich nur selten komplett selbst erstellen. Aus diesem Grund werden beim Training oft auch Daten genutzt, die rechtlich geschützt sind.

Beim Nachtrainieren eines vortrainierten Modells wird ein bereits entwickeltes KI-Modell mit zusätzlichen, eigenen Daten weitertrainiert. So lernt es, sich besser an einen bestimmten Kontext anzupassen – zum Beispiel an die Sprache, Produkte oder Inhalte eines konkreten Unternehmens.

§ 44b UrhG: Was bei KI-Training urheberrechtlich erlaubt ist

Wenn es um KI-Training geht, wird häufig auf § 44b UrhG verwiesen. Die Vorschrift regelt das sogenannte Text- und Data-Mining. Darunter versteht man die automatisierte Analyse digitaler oder digitalisierter Werke, um daraus Muster, Trends oder Zusammenhänge zu gewinnen.

Nach § 44b Abs. 2 UrhG sind solche Nutzungen grundsätzlich erlaubt – allerdings nur für die Analyse von Inhalten. Vereinfacht gesagt: KI darf Inhalte zwar auswerten, aber nicht einfach übernehmen.

Aber: Möglicher Vorbehalt gegen Text- und Data-Mining nach § 44b Abs. 3 UrhG

Nach § 44b Abs. 3 UrhG sind diese Vervielfältigungen allerdings nur dann zulässig, wenn sich der Rechteinhaber die Nutzung nicht vorbehalten hat. Rechteinhaber können festlegen, dass ihre Inhalte nicht für automatisierte Analyse genutzt werden dürfen. Bei im Internet verfügbaren Inhalten muss ein solcher Vorbehalt maschinenlesbar erklärt werden.

Damit wird deutlich: § 44b UrhG ist zwar eine mögliche Rechtsgrundlage, jedoch keine pauschale Erlaubnis, urheberrechtlich geschützte Inhalte beliebig für das KI-Training zu verwenden.

Aus diesem Grund sollte stets überprüft werden, ob Trainingsinhalte einem solchen Vorbehalt unterliegen. Ist dies der Fall, ist ein Rückgriff auf das Text- und Data-Mining nach § 44b UrhG von vornherein ausgeschlossen. Zudem kann es sinnvoll sein, für eigene Inhalte – soweit entsprechende Urheberrechte bestehen – einen entsprechenden Vorbehalt zu erklären.

Vom erlaubten Training zum problematischen Output

Die Vorschrift privilegiert – soweit der Vorbehalt nach § 44b Abs. 3 UrhG beachtet wurde – allerdings lediglich die Analyse von Inhalten. Rechtlich kritisch wird es dann, wenn geschützte Inhalte im KI-Modell so gespeichert werden, dass sie später in identischer oder sehr ähnlicher Form ausgegeben werden können. Genau an dieser Stelle sind die aktuellen Verfahren gegen OpenAI besonders interessant.

LG München I: GEMA gegen OpenAI

Das Landgericht München I (Urt. v. 11.11.2025 – Az. 42 O 14139/24) bejahte im Verfahren GEMA gegen OpenAI Ansprüche wegen der unzulässigen Wiedergabe geschützter Liedtexte. Dass ChatGPT urheberrechtlich geschützte Liedtexte von insgesamt neun deutschen Urheber*innen auf einfache Anfrage hin nahezu vollständig wiedergeben konnte, wertete das LG München I als starkes Indiz dafür, dass diese Inhalte beim Training nicht nur „analysiert“, sondern so verarbeitet wurden, dass sie später reproduzierbar waren.

Diese sogenannte Memorisierung der Werke geht jedoch über das hinaus, was nach § 44b UrhG zulässig ist, da die Inhalte im KI-Modell enthalten bleiben und so durch Nutzende reproduziert werden können.

Neben der Speicherung der Liedtexte im KI-Modell sah das Gericht auch in den Antworten der KI einen Urheberrechtsverstoß – nämlich dann, wenn auf eine Nutzeranfrage hin ganze Liedtexte ausgegeben wurden.

Penguin Random House gegen OpenAI: der Fall „Der kleine Drache Kokosnuss“

Auch der aktuelle Fall Penguin Random House gegen OpenAI knüpft an diese Diskussion an und zeigt, dass sich die Problematik nicht nur auf Liedtexte beschränkt. Die Verlagsgruppe wirft OpenAI vor, dass ChatGPT auf entsprechende Eingaben hin Inhalte erzeugt habe, die der Kinderbuchreihe „Der kleine Drache Kokosnuss“ erkennbar ähneln.

Auch hier geht es daher um die Frage, ob urheberrechtlich geschützte Werke für das KI-Training verwendet wurden und ob das System später Inhalte ausgibt, die dem Original zu nahekommen. Anders als im Verfahren GEMA gegen OpenAI liegt hierzu bislang jedoch noch keine gerichtliche Entscheidung vor.

Anders entschieden: Londoner High Court

Im Vereinigten Königreich hat der High Court in London in einer vergleichbaren Sache hingegen anders entschieden. Dort ging Getty Images gegen Stability AI wegen der Nutzung geschützter Bilder zum Training eines Bildgenerators vor.

Der High Court wies die urheberrechtlichen Ansprüche weitgehend zurück. Ausschlaggebend war, dass das KI-Modell nach Auffassung des Gerichts selbst keine geschützten Werke speichere und daher nicht als rechtsverletzende Vervielfältigung gälte.

Damit steht die Entscheidung im deutlichen Gegensatz zur deutschen Rechtsprechung, die gerade wegen der Reproduzierbarkeit von Inhalten ein unzulässiges KI-Training sieht.

Was bedeutet das für Online-Händler*innen?

Die aktuellen Entscheidungen zeigen: Rechtlich relevant ist nicht nur, welche Daten in ein KI-System einfließen, sondern auch, ob und wie diese später im Output reproduzierbar sind.

Für die Praxis bedeutet das insbesondere:

  • Trainings- und Eingabedaten prüfen:

    Werden urheberrechtlich geschützte Inhalte verwendet, sollte geklärt sein, ob eine Nutzung zulässig ist oder ein Vorbehalt besteht.

  • Einsatz von KI-Tools hinterfragen:

Gerade bei externen Anbietern ist oft unklar, mit welchen Daten die Systeme tatsächlich trainiert wurden. Das LG München I hat zwar entschieden, dass OpenAI für die Urheberrechtsverletzung verantwortlich sei, da sie die Trainingsdaten ausgewählt habe. Gerade beim Nachtrainieren durch ein Unternehmen könnte diese Bewertung aber ggf. auch anders ausfallen. 

  • Output kontrollieren:

KI-generierte Inhalte sollten immer darauf überprüft werden, ob sie bestehenden Werken zu nahekommen. 

  • Verträge und Nutzungsbedingungen prüfen:

Wer externe KI-Dienste nutzt, sollte genau hinschauen: Welche Rechte räumt der Anbieter ein? Wer haftet im Fall einer Rechtsverletzung? Und wie wird mit eingegebenen Daten umgegangen? Diese Fragen sind entscheidend, um Risiken zu minimieren.

Unser Tipp

Die aktuellen Verfahren zeigen: Die rechtliche Beurteilung von KI steht größtenteils noch ganz am Anfang. Das KI-Training ist dabei jedoch kein experimenteller Freiraum. § 44b UrhG erlaubt zwar einiges, aber längst nicht alles. Problematisch wird es spätestens dann, wenn geschützte Inhalte später wieder erkennbar ausgegeben werden können.

Für Online-Händler*innen ist klar: KI spart Zeit, schafft aber auch neue Risiken. Entscheidend ist nicht nur, was ein Tool ausgibt, sondern womit es (nach-)trainiert wurde. Wer hier unkritisch arbeitet, riskiert unter Umständen Urheberrechtsverstöße – oft sogar ohne es zu merken.

Die aktuelle Rechtsprechung macht deutlich: Die Grenze verläuft dort, wo KI Inhalte nicht nur analysiert, sondern wiedererkennbar reproduziert. Genau das kann im Marketing, bei Produkttexten oder automatisierten Antworten schnell relevant werden.

Für die Praxis heißt das: Daten prüfen, Tools hinterfragen, Output kontrollieren.

Und was ist mit der viel zitierte grenzenlose Freiheit über den Wolken? Die endet jedenfalls im KI-Training dort, wo urheberrechtlich geschützte Inhalte beginnen.

14.04.26
Florian Güster, MBA

Florian Güster, MBA

Seit 2021 ist er als Senior Legal Consultant bei Trusted Shops sowie Rechtsanwalt bei FÖHLISCH mitverantwortlich für die Entwicklung und Fortentwicklung von Legal Tech-Produkten.

Land auswählen: