Zur Verdeutlichung: GoogleBot, GPTBot, ClaudeBot, AppleBot, und PerplexityBot usw. sind gemeinsam für 39% des gesamten Internet Traffics verantwortlich. Auf je drei menschliche Besucher kommen zwei Bots. Die Wahrheit ist zwar auch, dass der GoogleBot und BingBot noch immer die Majorität der Crawlinganfragen bestimmen, aber mit der zunehmenden Zahl an AI-Crawlern steigt auch die Gefahr von falschen Daten in Trackingtools. So dynamisch wie sich derzeit die Landschaft entwickelt und in der Geschwindigkeit, in der neue Crawler auf das Internet losgelassen werden, ist es schwer, als Toolanbieter mitzuhalten. Google Analytics nutzt zur Filterung ihre eigenen Research-Daten und eine Liste von IAB. Matomo schließt per Default User Agents aus, bei denen Javascript nicht aktiviert ist. Außerdem können Admins auch User Agents einzeln ausschließen. In LUX pflegen wir ebenfalls eine Liste der Bots, die vom Tracking ausgeschlossen werden sollen. Nutzer können diese Liste für ihre eigenen Projekte beliebig erweitern oder anpassen. Ein großer Vorteil von Open Source Tracking Tools, da hier transparent in den Quellcode eingegriffen werden kann und eine starke Community hinter den Projekten steht, die neue Bots meldet. So pflegt auch PostHog eine Liste der exkludierten Bots und die fleißige Community meldet neue Bots, die dann in die Liste aufgenommen werden. Natürlich lässt es sich nicht ausschließen, dass Daten durch Crawler verfälscht werden, aber auf solche fehlerhaften Daten schnell zu reagieren zeichnet eine gute Software aus. In dem Bild unten zeigt sich die Datenverfälschung durch einen wöchentlichen Crawler von Sistrix, der die Anzahl besuchter Seiten natürlich extrem verfälscht. Genauso wichtig ist aber auch zu erfassen, ob Crawler die Website besuchen können oder ob GoogleBot & Co. Hürden bei der Exploration der Informationen haben und dadurch die Sichtbarkeit bei Google, ChatGPT und Bing verhindert wird.