Multimedia
KNA – Joel Schmidt

Medienhäuser sperren im Kampf gegen KI-Konzerne Online-Archive aus

Um ihre Inhalte vor dem unerlaubten Zugriff durch KI-Firmen zu schützen, sperren immer mehr Medienhäuser sogenannte Crawler aus. Damit gefährden sie auch den Fortbestand des digitalen Gedächtnisses des World Wide Web.

Bonn (KNA) – „Universeller Zugang zu allem Wissen“ – so lautet die Mission des Internet Archive. Seit ihrem Bestehen im Jahr 1996 hat die gemeinnützige Organisation aus San Francisco mehr als eine Billion Webseiten gespeichert – und stellt damit das größte digitale Gedächtnis der Menschheit dar. Mithilfe des zum Archiv gehörenden Tools Wayback Machine lässt sich dieser Bestand bequem über den Browser durchsuchen.

 

Dank dieser kostenlosen Funktion lassen sich Änderungen in den Inhalten von Webseiten auch Jahre im Nachhinein noch nachvollziehen, etwa wenn Firmen ihre AGB verändern. Oder wenn Politiker eine getroffene Aussage nach öffentlicher Kritik geringfügig anpassen. Ganz zu schweigen von jenen Fällen, in denen Webseiten gänzlich vom Netz genommen worden sind.

 

Da das Internet Archive all diese Informationen vor dem Verlust bewahrt, stellt es ein wichtiges Werkzeug für Historiker, Juristen und Forscher dar – und ist insbesondere für Journalisten eine unverzichtbare Recherchequelle. Doch ausgerechnet Medien sind es, die derzeit den Fortbestand des Angebots infrage stellen.

 

Abkürzung über das Archiv

Einer Recherche der „Nieman Foundation for Journalism“ an der Harvard University zufolge verweigern in den USA immer mehr Medienhäuser dem Internet Archive den Zugang zu ihren Inhalten. Ursache dafür sind sogenannte KI-Crawler. Dabei handelt es sich um Bots, die automatisiert und im großen Stil das Internet nach Inhalten durchsuchen, um mit den gesammelten Daten große Sprachmodelle wie ChatGPT oder Claude zu trainieren.

 

Das Problem: Anstatt mit den Verlagen vorab über Nutzung und Vergütung ihrer journalistischen Inhalte für Trainingszwecke zu verhandeln, nehmen KI-Firmen die Abkürzung über das Angebot des Internet Archive und gelangen somit kostenfrei an ihre Daten. Das befürchten zumindest viele Verlage.

 

Eine Befürchtung, die Mark Graham, Direktor der Wayback Machine, erst kürzlich dem US-Magazin „Wired“ bestätigte. Ihm zufolge seien auf der Seite des Internet Archive in jüngster Zeit im großen Stil KI-Crawler zum Einsatz gekommen. Zuweilen habe es bis zu Zehntausende automatisierte Anfragen pro Sekunde von einzelnen Unternehmen gegeben, was zu einer Überlastung der Server geführt habe.

 

Kein einheitlicher Umgang

Dass nun mehr als 240 Medien aus neun Ländern ausgerechnet dem Internet Archive den Zugriff auf ihre Webseiten untersagen, hält Graham für „eine zunehmende Abschottung immer größerer Teile des öffentlichen Internets“. Als Reaktion sprechen sich in den USA daher auch immer mehr Medienschaffende für den Erhalt des Internet Archive aus. Über 100 Journalisten zählen zu den Unterzeichnern einer Petition, in der es heißt: „Die Bewahrung dieses Archivs ist für den Schutz des journalistischen Erbes von entscheidender Bedeutung.“

 

Auch in deutschen Medienhäusern ist das Thema angekommen, einen einheitlichen Umgang gibt es jedoch noch nicht. So äußert auf KNA-Anfrage eine Sprecherin der Wochenzeitung „Zeit“: „Die ‚Zeit‘ untersagt derzeit den Crawlern der führenden KI-Plattformen den Zugriff auf unsere Inhalte zu Trainingszwecken. Zugriffe des Internet Archive lassen wir hingegen zu.“

 

Bei Axel Springer beobachte man einem Unternehmenssprecher zufolge „sehr genau, wie KI-Crawler und andere automatisierte Zugriffe auf unsere journalistischen Inhalte zunehmen“. Da sich viele dieser Zugriffe nicht immer eindeutig identifizieren und von menschlicher Nutzung abgrenzen ließen, plädiert das Unternehmen für „mehr Transparenz, klare Regeln und wirksame Steuerungsmöglichkeiten“. Ob, wie und in welchem Umfang automatisierte Zugriffe begrenzt werden, entscheide man im Einzelfall.

 

Wertvolle Recherchequelle

Als Leiterin des „Frankfurter Allgemeine Archiv und Rights Management“ sagt Olivera Kipcic, die „FAZ“ schätze das Internet Archive seit vielen Jahren als wichtigen Beitrag zur digitalen Dokumentation und als wertvolle Recherchequelle – auch für journalistische Arbeit. Gleichzeitig müssten sich die Medienhäuser vor der ungenehmigten Nutzung ihrer Inhalte zum Training generativer KI-Modelle schützen.

 

Die „FAZ“ prüfe daher „kontinuierlich, welche automatisierten Zugriffe auf unsere Inhalte erfolgen“. Reine KI-Crawler, die Inhalte systematisch für Trainingszwecke großer Sprachmodelle ohne vorherige Zustimmung erfassen, sollten zukünftig aktiv geblockt werden. Man sei sich bewusst, dass Einschränkungen für bestimmte Crawler auch Auswirkungen auf etablierte Recherchewerkzeuge wie die Wayback Machine haben könnten, und versuche daher, „zwischen dem Schutz unserer Inhalte und dem öffentlichen Interesse an dokumentierter Zeitgeschichte abzuwägen“.

 

Gegenbewegung zu KI-Firmen

Für Kipcic und die „FAZ“ ist die Debatte damit aber noch lange nicht abgeschlossen. Sie sagt: „Wir halten klare rechtliche Rahmenbedingungen und auch branchenweite Lösungen für sinnvoll, damit sowohl journalistische Archive als auch die Rechte von Medienhäusern langfristig gesichert bleiben.“

Shintaro Miyazaki ist Juniorprofessor am Institut für Kulturwissenschaft und Medienwissenschaft der Humboldt-Universität zu Berlin. Das Internet Archive bezeichnet er als eine wichtige Gegenbewegung zu den großen KI-Firmen. Gegenüber der KNA betont er dessen Besonderheit: „Es archiviert das Netz nicht, um mit den Informationen Profit zu generieren, sondern um diese für die Nachwelt zu dokumentieren, was eigentlich die Aufgabe von staatlichen Institutionen wie Nationalbibliothek, Staats-, Bundes- und Landesarchiven weltweit wäre.“

 

Seiner Auffassung nach müsste das Internet Archive deshalb auch staatlich massiv gefördert werden und Medienhäuser den „Crawlern des Internet Archive“ Zugang zu ihren Inhalten geben.

 

 

Sie möchten aktuelle Medien-News, Storys und Praxistipps lesen – und sich über Jobs, Top-Personalien und Journalistenpreise aus Deutschland informieren? Dann abonnieren Sie jetzt unseren kostenlosen Newsletter.

 

Sie haben Personalien in eigener Sache oder aus Ihrem Medienhaus? Oder ist Ihnen in unseren Texten etwas aufgefallen, zu dem Sie sich mit uns austauschen möchten? Dann senden Sie Ihre Hinweise bitte an georg.taitl@oberauer.com.