08. September, 2024

KI

Daten-Scraping durch AI-Startup Anthropic sorgt für Unruhe bei Web-Publishern

Daten-Scraping durch AI-Startup Anthropic sorgt für Unruhe bei Web-Publishern

Das aufstrebende KI-Startup Anthropic ist in die Kritik geraten, unermüdlich Daten von Webseiten zu sammeln, um seine Systeme zu trainieren – dabei möglicherweise gegen die Nutzungsbedingungen von Verlegern zu verstoßen. Diese Vorwürfe kommen von mehreren betroffenen Unternehmen. Zur Entwicklung großer Sprachmodelle, die technologische Basis von Chatbots wie OpenAI's ChatGPT und Anthropic's Pendant Claude, greifen KI-Entwickler auf enorme Datenmengen aus verschiedensten Quellen zurück. Anthropic, gegründet von ehemaligen OpenAI-Forschern, verfolgt dabei das Ziel, 'verantwortungsvolle' KI-Systeme zu entwickeln. Kritik kam unter anderem von Matt Barrie, CEO von Freelancer.com, der die in San Francisco ansässige Firma als 'aggressivsten Scraper' seiner Plattform bezeichnete, die Millionen von täglichen Besuchen verzeichnet. Laut Barrie habe ein webbasierter 'Crawler', der Anthropic zugeordnet werden konnte, innerhalb von vier Stunden 3,5 Millionen Besuche auf seiner Webseite erzeugt – das Fünffache des nächsthäufigen KI-Crawlers. Versuche, den Zugriff mittels standardisierter Protokolle zu verweigern, führten nicht zum Erfolg, weshalb Barrie sich entschied, die gesamten IP-Adressen von Anthropic zu blockieren. Neben Freelancer.com meldeten auch andere Webseitenbetreiber verstärkte Zugriffe von Anthropic-Crawlern. Kyle Wiens, CEO von iFixit.com, berichtete von einer Million Zugriffen innerhalb von 24 Stunden, was sämtliche Überlastungsalarme auslöste. iFixit untersagt in seinen Nutzungsbedingungen ausdrücklich die Verwendung seiner Daten für maschinelles Lernen. Ein Ansatz zur Steuerung von Web-Robotern ist das 'robots.txt'-Protokoll, das jedoch auf freiwilliger Beachtung basiert. Anthropic betonte, dass ihre Crawler diese Signale respektieren, sobald sie implementiert werden, und bemühten sich um minimale Störungen. Sie erklärten außerdem, Technologien wie CAPTCHAs zum Schutz vor Missbrauch zu berücksichtigen. Das Thema Daten-Scraping ist nicht neu, hat jedoch durch das Wettrennen um fortschrittliche KI-Modelle erheblich an Intensität gewonnen, was zusätzliche Kosten für Webseitenbetreiber bedeutet. Eric Holscher, Mitbegründer der Dokumentenplattform Read the Docs, bezifferte die resultierenden Bandbreitenkosten und den Zeitaufwand zur Bekämpfung von Missbrauch als signifikant. Obwohl Anthropic sich selbst als ethischen Akteur positioniert hat, hat es anscheinend keine vergleichbaren Partnerschaften wie OpenAI, das kürzlich Vereinbarungen mit Reddit, The Atlantic und der Financial Times getroffen hat, um Daten rechtmäßig zu nutzen. Web-Publisher fordern eine intensivere Auseinandersetzung mit den Praktiken des Daten-Scrapings, um eine einvernehmliche Nutzung ihrer Inhalte zu ermöglichen und den langfristigen Nutzen der KI-Entwicklung sicherzustellen.