Warum uns Google Analytics belügt – und alle anderen auch. (Teil 2)

Posted by stilburg - 13. Oktober 2009 - Magazin, WebWirtschaft - 11 Comments

Im ersten Teil meines Artikels hatte ich bereits ausgeführt, warum unsere Webseiten eigentlich gar keine Besucher haben, das “Besuche” ein theoretisches und höchst problematisches Gedankenmodell sind und das wir auch nicht die Dauer eines Besuchs richtig bestimmen können.

Für Freunde von schlechten Nachrichten habe ich in diesem Teil des Artikels noch weitere grundsätzliche Probleme von Web Analyse Tools zusammengestellt. Für Freunde des des amerikanischen Films habe ich einen kleinen Spannungshöhepunkt vorbereitet, in dem es darum geht warum ausgrechnet Google Analytics uns auf besonders perfide Art hinter Licht führt. Dann schließlich – denn das gehört zu jedem guten Hollywood Schinken – ein Happy End: Nämlich wie wir trotz all dieser Probleme, Web Statistiken sinnvoll nutzen können.

Kommen wir zunächst zu weiteren grundsätzlichen Problemen die alle Analyse Werkzeuge gemeinsam haben:

d) Log-Files sollten Lüg-Files heissen

Ein großer Teil der Analyse Software auf dem Markt baut auf der Auswertung von Log-Dateien aus. Für gewöhnlich ist man geneigt zu denken: “Alles was auf meinem Server passiert, wird in Log Dateien erfasst” – dieser Gedanke ist nicht gänzlich falsch, der Umkehrschluß hingegen schon. Richtig ist, dass alles was auf dem Webserver passiert in den Log-Dateien stehen sollte. Falsch ist jedoch die Folgerung, dass wir daraus wissen was der Besucher unserer Website alles tut:

  • Spider und Robots
    Unsere Websiten werden, wenn wir alles richtig gemacht haben, häufig von Spider- und Robot-Programmen besucht. Das ist Software die Suchmaschinen verwenden, um die Inhalte unserer Seiten einzulesen, auszuwerten und zu indexieren. Diese Besuche werden von Maschinen, nicht von Menschen ausgeführt. Ein große Anzahl von Analyse Programmen unterscheidet jedoch nicht zwischen Maschinen, die unsere Seite besuchen und Menschen, die das tun.
  • Oh dieses Flash!
    Es wäre eine eigene Artikel-Serie wert, warum Flash falsch und böse ist – in 99% aller Fälle jedenfalls. Hier einer der selten erwähnt wird: Eine Flashdatei (*.swf) kann eine ganze Website sein, oder nur eine kleine Animation oder ein Menüelement. Wie soll also der Abruf einer SWF Datei gewertet werden: Als Seitenbesuch oder als Dateiabruf? Eine große Anzahl von Analyse Werkzeugen zählt es als Seitenabruf – was völlig falsch sein kann. Ist die gesamte Seite als Flash aufgebaute so kann man die Statistiken ohnehin in Tonne treten. Verwendet man nur einzelne Flash Elemente sollte man sich seine Statistik nochmal genau ansehen.
  • Cache und Durchbrecher
    Die meisten Browser speichern abgerufene Seiten, um sie beim wiederholen Aufruf nicht neu abfragen zu müssen. Das gleiche gilt für die Verbindungsserver (Proxy) von vielen Providern und großen Unternehmen. Wenn also in einem Großbüro zwei Leute die gleiche Website zur mehr oder weniger gleichen Zeit (z.B. am gleichen Tag) abrufen sind die Chancen groß, das unser Webserver von dem zweiten Abruf nie etwas erfährt. Ich schätze den Anteil solcher Seitenabrufe auf 30% und stehe damit unter Fachleuten nicht alleine da. Dieses Thema ist übrigens ein heißes Eisen, denn es bedeutet in der Praxis bares Geld. Website Betreiber, die sich über Werbung finanzieren, werden für nicht ausgelieferte Werbung auch nicht bezahlt. Wird also ein Banner nur einmal angefordert, aber 3 mal angezeigt, erhält der Webmaster nur einmal Geld, wenn die Messung aufgrund von Log-Dateien durchgeführt wird.
    Eine Gegenmaßnahme das “Cachebursting”, also das Druchbrechen des Zwischenspeichers lindert dieses Problem etwas. Grundsätzlich kann man davon ausgehen, dass Messungen die beim tatsächlichen “Lesen” oder “Anzeigen” der Seite vorgenommen werden (z.B. mittel Javascript) erheblich genauer sind.
  • Die Rückwärtsrolle
    Ich glaube es gibt hierfür keinen Fachbegriff – zumindest kenne ich keinen: Viele Leute verlassen eine Website durch das mehrfache Klicken auf den Zurück-Button im Browser. Die Analyse Software wertet das abhängig davon ob sie auf Logdateien aufbaut oder auf seitenbasierter Messung gänzlich anders. In Logdateien tauchen diese Rückwärtsrollen gar nicht auf und können auch nicht gemessen werden. In seitenbasierter Messung hingegen ist das ein vollständiger Seitenbesuch.
  • Zeitunterschiede und Widerstände
    Egal welche Software man nun zur Auswertung verwendet – man sollte unbedingt mal einen Blick darauf werfen, wie diese mit den unterschiedlichen Zeitzonen dieser Welt umgehen. Da ich von Uruguay aus vor allem für Deutschland und Nordamerika arbeite habe ich es ständig mit Zeitumstellungen zu tun. Mal stellen die Amerikaner die Uhr auf Sommerzeit, mal die Deutschen, mal wir oder auch mal spontan die Argentinier. Jedesmel gibt es eine Stunde mehr oder weniger in der Analyse. Es ist erstaunlich wie wenig Software es überhaupt gibt, die mit den unterschiedlichen Zeitzonen der Welt richtig umgehen kann.
    Nicht alle unsere Webbesucher vertrauen uns. Ein nicht geringer Teil verweigert Cookies, so manche Tracking Software wird als Spyware identifiziert und geblockt. Es gibt auch Messverfahren bei denen die Cookies von einem Dritten gesendet werden und unter Umständen sogar illegal sein können und große Chancen darauf haben nicht angenommen zu werden.
  • Zwischenverluste
    Google Kampagnen die ich fahre, zeigen mir immer mehr Klicks auf meine Anzeigen, als ich Besucher auf meiner Website sehe. Das gilt nicht nur für Google, sondern für praktisch alle Kampagnen die wir fahren und auch für alle Kunden deren Daten mir vorgelegt wurden.
    Es sind nicht böse Mächte die hier walten, sondern ein ganz offensichtliches und eigentlich bekanntes Problem, das dazu führt, dass wir immer für mehr Klicks bezahlen als wir tatsächlich an Besuchern erhalten: Shit happens – fast!
    Internetleitungen brechen ab, werden zurückgesetzt, Computer hängen sich auf, Verbindungen sind mal langsam, der User ändert seine Meinung und schließt seinen Browser. Es gibt unendlich viele Dinge die zwischen einem Klick auf einen Link und dem Anzeigen der Seite passieren können. Und sie passieren. Jedem von uns, jeden Tag und massenhaft.

Soweit so gut – oder schlecht. Wir sehen, dass das Zahlenmaterial was wir benutzen und auf dem wir unsere Statistiken aufbauen höchst ungenau und problematisch ist. Nun wäre zu erwarten, dass das am meisten verbreitete Software-Paket zur Analyse dieser schon im Ursprungen schlechten Daten, wenigstens besonders klug und gut damit umgeht. Leider ist das nicht der Fall:

2.) Das Ärgerliche an Google Analytics

Schlechtes Zahlenmaterial ist ärgerlich aber wie ich gezeigt habe, nicht zu ändern. Arbeiten wir also mit dem was wir haben. Störend ist es jedoch wenn, man ohnehin zweifelhaftes Zahlenmaterial auch noch auf zweifelhafte Weise auf arbeitet und wissentlich verfälscht.

Um zu verstehen worauf ich hinaus will, müssen wir uns Kurz die Geschichte von Google Analytics ansehen. Google hat Analytics nicht entwickelt sondern gekauft. Die zugrunde liegende Software hieß Urchin und hatte einen grundsätzlichen Fehler: Man geht allgemein davon aus das ein “Besuch” die Abfolge von mindestens zwei Seitenaufrufen in einer Zeitspanne von 30 Minuten ist. Besucht jemand nur eine Seite und klick auf gar nicht, ist es ein “Bounce”. (Siehe ersten Teil dieses Artikels)

Dieser Wert ist von großer Bedeutung weil so viele weitere Werte darauf aufbauen: Seiten pro Besuch, verbrachte Zeit auf der Site, Konversionsraten und so weiter. Das Problem das Urchin mit sich brachte war, dass es Bounces als Nullzeitbesuche zählte. Also Besuche die null Sekunden dauerten. Dadurch wurden alle Zahlen verfälscht.

Google machte nach der Übernahme von Urchin einen völlig richtigen Schritt und korrigierte diesen Fehler (Juli 2007) – nun rechne Google Analytics, wie Urchin nun hieß richtig, doch offensichtlich hatte Google nicht mit seinen Nutzern gerechnet. Durch die Korrektur dieses Fehler fielen die Werte für Besucher ab, da nur noch (nach der Definition) korrekte Besucher gezählt wurden. Die Kunden waren offensichtlich so verärget dass Google nach nur einem Monat diese Fehlerkorrektur zurück nahm, und wieder falsche Werte auslieferte. Der Glaube an Zahlen war stärker als die Vernunft.

Seit dem setzt Google den Weg fort lieber eine Analyse Software zu liefern, die schöne Zahlen (besser: geschönte Zahlen) als korrekte Statistiken zu erstellen. Ein paar Beispiele:

  • Besucherzähler - wer glaubt die anzeigten Visit sind Besucher, die auf unserer Website waren und irgendwas gemacht haben, der irrt gewaltig. Um das Beispiel aus dem ersten Teil des Artikels zu verwenden: Google zeigt uns als Besucher nicht etwa, Leute die unseren Laden betreten haben, sondern auch die Gaffer vor dem Schaufenster.
  • Konversionsraten - Unter Konversionsrate versteht man das Verhältnis zwischen Besuchern zu Käufern oder Leuten die eine bestimmte Aktion auf unserer Webseite ausführen, wie eine Bestellung, Kontaktaufnahme oder ähnliches. Es ist nicht unüblich das man hier die Summer der erfolgreich ausgeführten “Aktionen” ins Verhältnis setzt zu allen, die die Website gesehen haben – also Besucher und Bounces. Es ist üblich nur reichlich sinnlos. (Ich werde im dritten Teil dieses Artikels ausführen wie man es viel sinnvoller macht.)
  • Absprungsrate - Jeder Designer weiß, dass es eine Sache ist einen Besucher zum aktiven Besuch einer Website zu ünerreden und eine völlig andere den Besucher auf der Website zu halten. Während es vielleicht noch Sinn macht die Besucher und die Gaffer vor dem Schaufenster (=Bouncer) als Grundlage zu nehmen um die Konversionsrate zu berechnen, macht es jedoch überhaupt keinen Sinn die Bauncer in die Summer der Besucher einzurechnen, die unsere Seite verlassen. Das wäre so als würde ich eine Statistik erstellen über die Anzahl der Kunden, die wir in unserem Geschäft nicht bedienen konnten (die also eintraten, sich um sahen und ohne etwas zu kaufen unseren Laden wieder verließen) und würde dabei alle Passenten die auf der Strasse vorbeigingen mit einrechnen.

Die Liste ließe sich fortsetzen und vermutlich ließe sich zu jeder existierenden Analyse-Software eine ähnliche Liste erstellen. Doch ich will es dabei bewenden lassen und mich lieber nun dem versprochenen Happy End widmen. Im nächsten Teil des Artikels werde ich einige Ratschläge geben, wie man die Zahlen bei Google Analytics korriegieren kann und eine Denkanregungen, wie man aus diesem schlechten Material doch für hilfreiche Schlussfolgerungen ziehen kann, die bares Geld wert sind.

Bis dahin wünsch ich Euch alles Gute und viele “Besucher” ;)

Update: Hier geht es zum dritten und letzten Teil: Warum uns Google Analytics belügt und es uns dennoch egal sein kann.Facebook Like

11 comments

  • [...] Update: Hier geht’s zum zweiten Teil des Artikels “Warum uns Google Analytics belügt..und alle … [...]

  • Ulrike Langer (1 comments) sagt:

    Sehr aufschlussreich. Fällt in die Kategorie: “Traue keiner Statistik…”

    Mir ist noch etwas Seltsames aufgefallen. Google Analytics zählt zwar nicht meine eigenen Besuche auf meiner Website, sehr wohl die Seiten, die ich als Admin auf den Admin-Seiten verbringen. Diese Besuche tauchen in der “aufgerufene Seiten”-Statistik nicht mit Permalink, sondern z.B. so auf: …./?p=1389 Das ist eine URL, die ein Blogbeitrag hatte, bevor ich ihn veröffentlicht habe. Kurios oder?

  • Roman (2 comments) sagt:

    Sehr interessanter Artikel… @Ulrike, vielleicht kommt das vom Aufrufen der Vorschau des unfertigen Artikels… ich hatte dies, da ich mal Adsense in meinem Blog hatte, wenn ich eine Vorschau öffnete (und somit auch Adsense ladete), “kam” sofort Googlebot ;o)

  • Christoph Gummersbach (2 comments) sagt:

    @Sven:

    * Nicht zuletzt die genannten Probleme mit Spidern und Caches bei der Logfile-Analyse haben ja gerade dazu geführt, dass diese Art der Datennahme seit Jahren im professionellen Umfeld nicht mehr verwendet wird. Stattdessen sind die Pixelanalyse-Tools (Google Analytics, Omniture, WebTrends, Nedstat etc.) im Gebrauch, bei denen diese Fehler ja eben NICHT auftreten.

    * Flash-Tracking ist natürlich aufwendiger zu implementieren, aber auch Google Analytics hat hier über das sog. Event-Tracking entsprechende Möglichkeiten, dies zu tun.

    * Der Unterschied zwischen Klicks und Besuchen ist ganz natürlich – es sind im Durchschnitt immer etwa 10% weniger Besuche als Klicks. Überwiegend, weil Nutzer oft während einer Sitzung zweimal auf eine Anzeige klicken oder der Tracking-Code auf der Seite nicht schnell genug geladen wird.

    * Dass Unternehmen andere spezialisierte Unternehmen kaufen, ist üblich: Google hat Urchin, Yahoo hat Indextools, Adobe hat Omniture gekauft.

    * Ob nun die Bouncer überhaupt, mit 0 Sekunden oder einer geschätzten Blickdauer von x Sekunden gezählt werden, ist unerheblich, falls das Tool dies immer gleich macht und man, wie es sein sollte, immer nur relative Werte in den Analysen betrachtet (siehe mein Kommentar im ersten Beitrag).

    Bin natürlich trotzdem aufs Happy End gespannt :-)

    @Ulrike:

    Sollte Dinge haben immer eine natürliche Erklärung – z.B. über einen Zugriff auf einen Entwicklungsserver oder einen Zugriff über einen anderen Browser, falls du die Cookie-Methode zum Ausschluss deiner Eigenzugriffe verwendest, oder über einen Link, der keine Permalink-URL hat etc.

  • Mathilda (1 comments) sagt:

    Sehr interessanter Artikel…muss ich noch mal lesen (bin Neuling)!

  • Thorsten (2 comments) sagt:

    Sehr gut geschriebener Artikel. Ich stehe diesen Daten auch immer sehr misstrauisch gegenüber. Aber dennoch liefern Sie einen Anhaltspunkt mit dem man arbeite kann (und muss). In diesem Artikel kritisiert du einige Dinge die man eigentlich aufgrund der Erkenntnis deines ersten Artikels als gut werten kann z.B. Die Rückwärtsrolle … wenn ich einen unique User haben möchte, dann soll dies ja gar nicht gezählt werden. Noch ein Grund für mein Misstrauen von den Statistiken: zwischen den Daten die Analytics ermittelt und die unser Provider (1und1) ausspuckt, gibt es immer erhebliche Unterschiede.

  • [...] uns Google Analytics belügt (Teil 2) (Link) Ein gesundes Misstrauen ist hier immer angebracht #Analytics [...]

  • Lena (2 comments) sagt:

    Wirklich sehr aufschlussreich und lässt mich die gelieferten Daten mit etwas anderen Augen sehen. Wohl in Zukunft auch nicht mehr so blauäugig.

  • Alex (6 comments) sagt:

    Hmm…
    “Sehr gut geschriebener Artikel.” Naja.

    Wie bereits Christoph im Kommentar 3 beschrieben hat, existieren zwar diese Verfälschungen, sind sie auch ganz klar systemimmanent und werden von vielen Software-Lösungen mittlerweile weitestgehend kompensiert.

    Und für “sehr gut geschrieben” halte ich diesen Artikel nicht, da die fantasievolle kuriose Zeichensetzung und die Rechtschreibfehler zu überlesen oder zu interpretieren schon überaus anstrengend ist, was alle zwei Sekunden nur mit Augenbrauenheben und mehrmaligem Blinzeln vonstatten geht.
    Einen derartigen grammatikalischen Suizid kann man doch bereits mit MSWord überwiegend umgehen.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Kommentarlinks könnten nofollow frei sein.