Wie verhindert man das ChatGPT die eigene Webseite scrawlt / erfasst?

von | Nov 16, 2023 | Technik | 0 Kommentare

Schlagwörter: ChatGPT

Seit Januar 2023 werden wir ja täglich mit News zu dieser angeblichen KI von ChatGPT zugepflastert.

Viele Leute denken darum dass dies eine echte KI ist – die selber denken kann – dabei ist es nur ein „Language Model“ oder auf Deutsch gesagt ein Sprachmodell. Es nimmt die Usereingabe und checkt die Wörter und dann berechnet es aus seiner Erfahrung und seinem Wissen welche Wörter die höchste Trefferquote hat die zu deiner Frage passt und gibt sie aus. Es ist also nichts anders als ein „fancy“ (das neue Modewort für schick) If…Then Bot.

Und damit dieses Sprachmodel gut funktioniert braucht es als 1. viele User die ChatGPT verwenden und 2. viele Daten die sie in ihre Datenbank eingeben können. Darum scannt es zur Zeit aktiv das Internet nach neuem „Futter“

Und mit diesen Texten, Bilder, Videos, Audio Aufnahmen, werden dann ihre Modelle trainiert und darauf basieren dann alle Antworten. Darum gibt es jetzt bereits ein paar Klagen vor Gericht von Künstler weil ChatGPT und andere „KI“ ihre Werke kopiert und verändert haben und nichts neues erschaffen haben.

Artikel

OpenAI Sued by Authors Alleging ChatGPT Trained on Their Writing

Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content

Robots.txt

Aus diesem Grund will ich zum Beispiel auch nicht, dass dieser ChatGPT Bot diesen Blog hier erfasst und in seine Datenbank aufnimmt.

Nun möchte ich euch zeigen wie ich das gemacht habe und zwar lässt sich das alles über die sogenante robots.txt Datei lösen.

Ihr wisst ja sicher – hoffentlicht – das man mit dieser Datei steuern kann, ob Suchmaschinen Crawler die Seite erfassen dürfen oder oder nicht. So kann ich nicht nur ganze Webseiten vor dem indexieren von Google, Bing etc schützen sondern ich kann auch nur einzelne Ordner ausschliessen.

Das ist eine sehr alte Technik und ich habe in diesem Artikel bereits beschrieben wie das Ganze funktioniert: Robots.txt: Wie stellt man es richtig ein?

Ganze Webseite für ChatGPT sperren?

Also wenn ihr eine Webseite ganz für ChatGPT sperren wollt, dann öffnet euren Robots.txt Datei und erweitert es mit dem folgenden Befehl

1
2
User-agent: GPTBot
Disallow: /

Einzelne Ordner für ChatGPT sperren

Das coole ist auch das man nicht nur die ganze Webseite sperren kann sondern auch nur einzelne Ordner.

1
2
3
User-agent: GPTBot
Allow: /ordner-1/
Disallow: /ordner-2/

Hier sagt ihr also dem Crawler von ChatGPT ganz klar, dass er ordner-1 erfassen kann, aber nicht ordner-2

Fazit

Nun müsst ihr euch wirklich überlegen welche Daten ChatGPT erfassen darf und welche nicht. Ich habe Dokumente bei mir auf meiner Webseite von denen ich nicht will das ChatGPT darauf Zugriff hat und bei anderen Dingen ist es mir egal. Hier bei diesem Blog ist alles gesperrt – bei meiner Firmenwebseite nur Teile.

Ich bin sicher die anderen KI Tools werden bald auch auf diesen robots.txt hören oder einen Eigenen bekommen.

WordPress

Allgemein

Technik

Design

Konzept

WordPress Plugins

Interessantes

Vermarktung

Themen

Font / Schriften

Social Media

Youtube

eCommerce

Gemischtes

Kolumne

Webinar

Blog Archiv

Kurse / Webinare

Meine nächste Webinare / Kurse





0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert