Der Streit um unerlaubtes Scraping von Inhalten durch OpenAI spitzt sich zu, nachdem die Rechtsvertreter der New York Times und der Daily News Vorwürfe gegen das KI-Unternehmen erhoben haben. Angeblich sollen OpenAI-Ingenieure versehentlich Daten gelöscht haben, die möglicherweise für den Rechtsstreit von Bedeutung sind.
OpenAI hatte dem Vernehmen nach im Herbst zugestimmt, zwei virtuelle Maschinen zur Verfügung zu stellen, damit die Anwälte der Kläger nach urheberrechtlich geschützten Inhalten in den KI-Trainingsdaten suchen konnten. Diese Maschinen, virtuelle Computer innerhalb eines Betriebssystems, dienen häufig zu Testzwecken sowie zur Datensicherung. Seit dem 1. November seien über 150 Stunden Arbeitszeit investiert worden, um die Daten zu durchforsten.
Am 14. November wurde jedoch die gesamte auf einer dieser virtuellen Maschinen gespeicherte Suchdatenbank gelöscht, wie aus einem Brief hervorgeht, der letzten Mittwoch beim U.S. District Court for the Southern District of New York eingereicht wurde. OpenAI gelang es zwar weitgehend, die Daten wiederherzustellen, doch die Ordnerstruktur und die Dateinamen blieben "unwiederbringlich" verloren, was die Nutzung der Daten zur Identifizierung der betroffenen Artikel erschwerte.
Da die bisherigen Arbeiten nicht mehr verwertbar sind, sehen sich die Verlage gezwungen, die aufwendige Suche von vorne zu beginnen. Trotz der misslichen Lage sehen die Kläger keine Anhaltspunkte für eine absichtliche Löschung durch OpenAI, betonen jedoch, dass das Unternehmen am besten in der Lage sei, eigene Datensätze nach möglicherweise urheberrechtsverletzendem Material zu durchsuchen.
In einer am Freitag eingereichten Antwort wies OpenAI die Anschuldigungen entschieden zurück. Die Anwälte des Unternehmens argumentierten, dass eine von den Klägern geforderte Konfigurationsänderung zu einer technischen Fehlfunktion geführt habe, bei der die Ordnerstruktur und einige Dateinamen auf einer Festplatte entfernt wurden. Diese Festplatte sollte ohnehin nur als temporärer Speicher dienen. OpenAI bestreitet, dass tatsächlich Daten verloren gegangen sind.