In einem Artikel der Frankfurter Allgemeinen Zeitung (FAZ) vom 22. Juli analysieren Benjamin Fischer, Marcus Jung und Tillmann Neuscheler die aktuelle Debatte um die Nutzung von Büchern als Trainingsmaterial für KI-Sprachmodelle. Demnach würden sich Bücher besonders gut für das Training eignen, da sie umfassender seien als viele kleine Textschnipsel aus dem Internet. KI-Entwickler würden ihre Trainingsdaten teils aus illegalen Quellen wie Raubkopier-Websites beziehen oder gebrauchte Bücher einscannen und digitalisieren.
Zwei US-Gerichte haben bereits Urteile gefällt, wonach das Training mit Büchern zulässig sei, sofern diese legal erworben wurden und die KI dadurch "hoch transformativ" Neues schaffe. Dennoch sind viele Kreative skeptisch und kritisieren, dass häufig gegen Urheberrechte verstoßen werde und Schadensersatzforderungen in Milliardenhöhe drohten.
In Europa gilt hingegen ein strengeres Urheberrecht, das das sogenannte Text- und Data Mining nur zu wissenschaftlichen Zwecken und mit rechtmäßig zugänglichen Werken erlaube. Die Musikindustrie schlage ein zweistufiges System vor, die GEMA habe ein Basismodell als Verhandlungsgrundlage präsentiert: Zum einen soll den Urheber:innen eine Vergütung für die Nutzung ihrer Werke im KI-Training gezahlt werden, zum anderen sollen die Urheber:innen an den Tantiemen beteiligt werden, die mit KI-generierten Songs verdient werden, wenn ihre Musik zuvor zum Training der KI verwendet wurde.
Den Autoren zufolge gibt es erste wirtschaftliche Folgen, zum Beispiel, dass einige Händler ihre Verträge mit GEMA kündigen und stattdessen KI-generierte Hintergrundmusik in ihren Geschäften einsetzen. Die Kreativen forderten eine faire Honorierung, die den Aufwand für die kreative Leistung berücksichtige.