
Image by Oberon Copeland, from Unsplash
KI-Bots überlasten die Server von Wikipedia
Die Wikimedia Foundation hat Alarm geschlagen über den wachsenden Druck auf ihre Server aufgrund von automatisierten Bots, die Daten scrapen, um künstliche Intelligenzmodelle zu trainieren.
Im Eiltempo? Hier sind die wichtigsten Fakten:
- AI-Bots durchforsten Inhalte von Wikimedia auf Rekordniveau.
- Bots verursachten einen Anstieg des Multimedia-Bandbreitenverbrauchs um 50%.
- 65% des hochkostenpflichtigen Traffics stammen jetzt von Crawlers.
Die Stiftung berichtete in einem kürzlichen Beitrag, dass der durch Maschinen erzeugte Verkehr weiterhin in einem beispiellosen Tempo wächst, während Menschen nur einen kleinen Teil dieses Verkehrs ausmachen.
„Seit Januar 2024 haben wir einen Anstieg des für das Herunterladen von Multimedia-Inhalten verwendeten Bandbreite um 50% erlebt,“ heißt es in dem Beitrag.
„Dieser Anstieg kommt nicht von menschlichen Lesern, sondern hauptsächlich von automatisierten Programmen, die den Wikimedia Commons-Bildkatalog mit frei lizenzierten Bildern durchsuchen, um AI-Modelle mit Bildern zu versorgen,“ fügte der Beitrag hinzu.
Die als Crawler bekannten Bots stehlen große Mengen an Daten von Wikimedia-Projekten, einschließlich Wikipedia und Wikimedia Commons, ohne ordnungsgemäße Anerkennung oder offizielle Zugangstools. Dieser Prozess erschwert es neuen Nutzern, Wikimedia zu entdecken und belastet ihre technischen Systeme übermäßig.
Zum Beispiel weist der Beitrag darauf hin, dass die Wikipedia-Seite von Jimmy Carter am Tag seines Todes im Dezember 2024 mehr als 2,8 Millionen Aufrufe erhielt. Das Video seiner Debatte von 1980 verursachte einen signifikanten Anstieg des Website-Traffics. Ein weiteres Video seiner Debatte von 1980 sorgte ebenfalls für einen Traffic-Spitzenwert. Wikimedia bewältigte dies – aber nur knapp. Das eigentliche Problem laut den Ingenieuren ist der kontinuierliche Strom an Bot-Traffic.
„65% unseres teuersten Traffics stammen von Bots“, schrieb die Stiftung. Bots „lesen in großen Mengen“ Inhalte, insbesondere weniger beliebte Seiten, was teure Anfragen an die Kern-Datencenter von Wikimedia auslöst.
Obwohl die Inhalte von Wikimedia frei nutzbar sind, sind es die Server nicht. „Unsere Inhalte sind kostenlos, unsere Infrastruktur nicht“, sagte die Stiftung. Das Team arbeitet weiterhin an Methoden zur Förderung der „verantwortungsvollen Nutzung der Infrastruktur“, indem es Entwickler dazu auffordert, die API anstelle des gesamten Website-Scrapings zu nutzen.
Das Problem betrifft Wikimedia ebenso wie zahlreiche andere Websites und Verlage. Aber für die weltweit größte Plattform für offenes Wissen bedroht es die Stabilität der Dienste, auf die sich Millionen verlassen.
Hinterlasse einen Kommentar
Abbrechen