/Quellcode/Webtraffic

Serverside Tracking Analyse

Wie Bot-Traffic das Internet überrollt

Bots sind 2025 kein Randthema mehr, sondern Kosten- und Entscheidungsfaktor. Unsere aktuelle Auswertung der Zugriffsdaten von www.quellcode.gmbh zeigt im First-Hit-Modell (ein erster Treffer je IP und Tag): 41.9 % Bots, 31.3 % Direct, 16.2 % quellcode/referral, 4.7 % Google/referral, 4.2 % Exploit-Versuche und 1.8 % weitere Referrals. Rund 40 % aller Erstbesuche kommen aus Datacenter-Netzen (Cloud/Hosting/VPN) statt von klassischen Consumer-Anschlüssen – ein klares Indiz für automatisierte und verschleierte Zugriffe. Besonders augenfällig ist der Kanal Direct: Mehr als die Hälfte dieses Segments stammt aus Datacentern (57.6 %), was zeigt, wie stark Referrer-Stripping, Proxies, In-App-Webviews und gespoofte User-Agents den Eindruck echter „Direktzugriffe“ verfälschen.

First-Hit Traffic: Datacenter vs. Consumer IP – Kategorien Bot, Direct, quellcode/referral, Google/referral, Other/referral, ExploitAttempt

Was unsere Grafik wirklich sagt

Die Grafik zeigt die Verteilung aller eindeutigen Tages-Erstbesuche nach Quelle, jeweils getrennt in Consumer versus Datacenter. Das Bild ist konsistent: Bots dominieren, Direct ist überhöht und stark datacenter-lastig, Exploit-Scans sind zwar relativ klein, aber überwiegend automatisiert. Erfreulich ist, dass quellcode/referral echte Empfehlungen und Backlinks abbildet und dort der Datacenter-Anteil mit 18.1 % vergleichsweise gering bleibt. Google/referral fällt mit 4.7 % niedriger aus, was für eine B2B-Seite mit viel Direkt- und Empfehlungsverkehr plausibel ist.

Warum Bots explodieren – und was sie kosten

Die starke Zunahme hat mehrere Ursachen: Zum einen rechnet die Branche seit Jahren mit einem hohen Anteil automatisierten Traffics; zum anderen sorgen neue KI-Crawler und einfach verfügbare Proxies für eine massive Verbreitung. Für Betreiber bedeutet das direkte Kosten (Bandbreite, CDN, Serverlast) und indirekte Schäden: verfälschte Analytics-Signale, verschobene SEO-Signale, Fehlentscheidungen in der Attribution sowie permanentes Sicherheitsrauschen durch horizontale Exploit-Scans (/.env, /.git/config, /wp-login, /phpmyadmin u. a.). Besonders tückisch: Clientseitige Zählungen wie GA4 können trotz Consent-Lücken und Blockern durch Measurement-Protocol oder Headless-Aufrufe künstlich aufgebläht werden – scheinbares Wachstum, das in Wahrheit Kosten produziert. Details und Beispiele zeigen wir in unseren Beiträgen „GA4-Manipulation & Fake-Events“ sowie „Server-Side-Tracking vs. GA4“.

So haben wir gemessen – und wo die Grenzen liegen

Statt nur auf ein eingebundenes Script zu vertrauen, werten wir Server-Logs aus und zählen bewusst First-Hits, um Refresh-Schleifen und Scrape-Loops zu entschärfen. Bots erkennen wir konservativ über UA-Signaturen (inkl. Headless-Muster), Exploit-Traffic über typische Pfade, Referrer ordnen wir in Google/referral, quellcode/referral, Other/referral und Direct ein. Eine kuratierte Datacenter-Heuristik (WHOIS/RDAP) trennt Cloud/VPN von Consumer-Zugängen. Eigene IPs, Tor-Exits und Google-Cache-IPs sind ausgeschlossen, URL/Referrer normalisiert. Diese Methodik ist robust, aber nicht unfehlbar: Residential-Proxies tarnen sich als Consumer, Firmenzugriffe laufen teils über Cloud-VPN, und alles ohne verwertbaren Referrer landet zwangsläufig in Direct. Für Quellen-Vergleiche ist das Verfahren ideal, für Engagement-Kennzahlen nicht gedacht. Der Datensatz umfasst 12’930 eindeutige Tages-Erstbesuche.

Google Ads: Wie nicht deklarierte Bots echtes Werbebudget verbrennen

Selbst deklarierte Crawler klicken in der Regel keine Anzeigen. Kostentreiber sind jene Akteure, die sich nicht korrekt ausweisen: automatisierte Clients hinter Datacenter- oder Residential-Proxies, die wie echte Nutzer erscheinen, Klicks auf Such-Ads, Display-Banner oder YouTube-Placements auslösen und damit Budget verbrauchen. In der Ad-Sicherheit spricht man vereinfacht von Invalid Traffic – von offensichtlich maschinellen Zugriffen bis zu „menschenähnlichen“ Mustern. Ein Teil wird von Google automatisch gefiltert und gutgeschrieben; der schwerwiegende Rest bleibt jedoch unter dem Radar, weil er sich als reguläres Nutzerverhalten tarnt. Das verzerrt Smart Bidding (CPA/ROAS), verschmutzt Remarketing-Zielgruppen, erzeugt Fake-Conversions und führt zu einem ungesunden Kreislauf: Der Algorithmus lernt aus falschen Signalen und gibt künftig noch mehr Budget in ähnliche Umfelder.

Unser Log-Befund erklärt, warum das passiert: Wenn schon First-Hits in grosser Zahl aus Datacentern kommen, dann gelangen dieselben Akteure auch bis zur Anzeigenauslieferung. Auf Suchnetzwerk-Kampagnen äussert sich das als Klick-Spitzen ohne korrespondierende, hochwertige Sitzungen; auf Display/Video als viele flüchtige Aufrufe aus wenigen Netzen/Autonomous Systems. Ohne serverseitige Gegenprüfung wirkt diese Aktivität wie realer Erfolg – und verteuert Kampagnen stille und stetig.

Vorteile von Serverside Tracking

Entscheidend ist, Messung dorthin zu verlagern, wo die Wahrheit entsteht: an die Server-Türe. Ergänze GA4/Matomo durch eine Log-basierte Sicht, führe First-Hit-Zählung und Datacenter-Tagging ein und sorge für Referrer-Hygiene (klare UTM-Konventionen, kurze Redirect-Ketten, saubere In-App-Flows), damit Direct schrumpft. Kanalisierte Bots sind besser als ignorierte: Erlaube verifizierte Crawler, begrenze den Rest mit WAF/Rate-Limits, pflege robots.txt und Crawler-Hints und steuere KI-Crawler aktiv. Gegen Exploit-Rauschen helfen Honeypot-Pfade, saubere Security-Header, das Vermeiden von 2xx-Scheinsignaturen und konsequentes Patching. Für verlässliche Attribution loggst du UTM-Parameter serverseitig mit und validierst Events – auffällige Peaks prüfst du gegen die Roh-Logs gegen.

Wie wir helfen

Unser Real-World-Befund bestätigt die Branchentendenz: ~42 % Bot-Traffic, ~31 % Direct und ~4 % Exploit, getragen von einem überdurchschnittlichen Datacenter-Footprint. Wer Budget, KPIs und Sicherheit im Griff behalten will, braucht eine Messung, die Bots sichtbar macht und sauber filtert. Genau dafür haben wir eine Server-Side-Tracking-Plattform entwickelt, die wir im Rahmen unserer Web-Dienstleistungen mit implementieren: datenschutzkonform, log-basiert, mit Bot- und Exploit-Filter, Datacenter-Erkennung und klarer Quellenklassifizierung – damit Entscheidungen wieder auf echten Besuchern beruhen.

Von Johannes Puschnig, November 2025

Wie können wir helfen?

Jetzt 50 % Neukundenrabatt sichern! Den Rabattcode erhalten Sie direkt per E-Mail.

×

Rabatt-Aktion

Profitieren Sie jetzt von unserer Sonderaktion - 50 % Neukunden-Rabatt* auf alle unsere Dienstleistungen!

Einfach Formular ausfüllen - der Rabattcode landet sofort in Ihrem E-Mail-Postfach. Der Code ist 10 Tage gültig und muss bei der Kontaktaufnahme angegeben werden.

* Gültig als Neukundenangebot für bis zu 20 Stunden Arbeitsaufwand.

📞
044 223 29 80
💬
Grüezi