Statistik: Wie viel Traffic brauche ich für A/B-Testing?
Die falsche Deutung der statistischen Signifikanz ist eine der größten Fehlerquellen des A/B-Testing – und dem wollen wir entgegenwirken!
Dieser Artikel ist Teil eines Dreiteilers, der A/B-Testern und Entscheidungsträgern helfen möchte, die vorhandenen Indikatoren richtig zu deuten, die richtigen Schlüsse zu ziehen, und die richtigen Entscheidungen für ihr Unternehmen zu treffen! Nach Artikeln über den statistischen Wert von A/B-Tests und über A/A-Tests wollen wir heute sehen, wie viele Besucher Sie brauchen, um erfolgreiche A/B-Tests durchzuführen.
Der mindestens benötigte Traffic wird mit vier Kennzahlen ermittelt:
1 Conversion-Rate Ihrer Referenz (K1)
Die aktuelle Conversion-Rate bei Ihrem A/B-Test-Hauptziel (z.B. eine Klickrate von 3% auf den CTA - oder Call-to-Action - den Sie testen möchten).
2 Minimale Auswirkung auf die Conversion-Rate durch die Variante (K2)
Sie könnten z.B. eine Steigerung (oder Senkung) um 10% feststellen wollen. Je kleiner die Veränderung ist, desto mehr Traffic benötigen Sie, um die Zuverlässigkeit der Ergebnisse zu maximieren. Wenn Sie eine starke Veränderung erwarten, sind die Ergebnisse auch bei einer kleineren Zahl getesteter Besucher verlässlich.
Dieser Grundsatz scheint auf den ersten Blick kontra-intuitiv, ist aber schnell erklärt. Wenn Sie eine Conversion-Steigerung von sagen wir 20% erwarten, braucht das Statistik-Tool nicht lange, um festzustellen, ob die Variante tatsächlich eine so große Steigerung herbeiführt oder nicht. Sie wissen schnell, ob eine Steigerung um 20% möglich ist.
Übrigens sind solche Steigerungen nur bei CTAs möglich, die nicht zum Kauf führen, sondern zur Anmeldung bei einem Newsletter oder Aufruf einer Landing Page. Ist die erwartete Veränderung weniger drastisch (wie es am Ende des Conversion-Prozesses kurz vor dem Kauf der Fall ist), brauchen Sie weit mehr Besucher, um sicher zu sein, dass die Variante diese kleine Steigerung mit sich bringt.
3 Konfidenzlevel für die Erkennung der Auswirkung (K3)
Hier geht es um die Wahrscheinlichkeit, dass Sie reale Veränderungen auch als solche identifizieren. Für Statistiker sollte dieser Wert bei mindestens 80% liegen, d.h. das Risiko, die Veränderung nicht zu erkennen, liegt bei 20%.
4 Konfidenzlevel für die Erkennung einer Auswirkung, wo keine ist (K4)
Diese Kennzahl stellt die Gefahr dar, ein falsch positives Ergebnis zu erhalten (Erinnern Sie sich? Wir haben das im Artikel Die Rolle von A/A-Tests besprochen). Das heißt, dass Sie eine Veränderung sehen, die statistisch nicht belegt ist. Das Risiko sollte höchstens 5% betragen.
Je höher die dritte Kennzahl und je niedriger die vierte, desto zuverlässiger sind die Testergebnisse. Je niedriger bzw. höher K3 und K4 angesetzt sind, desto weniger Besucher müssen den Test durchlaufen. Aber die Zuverlässigkeit der Ergebnisse sinkt dementsprechend.
Wenn Sie diese Kennzahlen definiert haben, brauchen Sie nur noch die statistische Berechnung vorzunehmen und die nötige Zahl von Besuchern für Ihren Test zu ermitteln. Gute A/B-Testing-Plattformen liefern das Ergebnis automatisch. Kameleoon z.B. zeigt es im Fenster des Teststarts an.
Vergessen Sie nicht, dass die Zahl der nötigen Besucher nicht dem Traffic Ihrer Webseite im Ganzen entspricht, sondern der Zahl der Besucher, die den Test effektiv durchlaufen.
5 Konkrete Beispiele
Hier die Illustration anhand konkreter Zahlen, basierend auf Konfidenzlevels K3 von 80% und K4 von 5%.
- Nehmen wir an, dass der Test eine hohe ursprüngliche Conversion-Rate (K1) hat, sagen wir 30% und die erwartete Verbesserung (K2) ebenfalls hoch ist und bei 20% liegt. Die Mindestzahl an Besuchern (nicht vergessen: pro Variante!) für ein statistisch signifikante Ergebnis läge bei weniger als tausend (genauer gesagt bei 929) Besuchern. Diese Art von Tests ist also auf fast allen Webseiten möglich.
- Ist die ursprüngliche Conversion-Rate (K1) niedriger, z.B. 5% für das Ausfüllen eines Formulars, die erwartete Verbesserung (K2) aber erheblich (20%), benötigt man einen Traffic von etwa 7.500 Besuchern pro Variante. Wird ein kleinerer Zuwachs erwartet, steigt der nötige Traffic. Wird eine Verbesserung von nur 10% erwartet, braucht man viermal mehr Besucher: 30.000 pro Variante.
- Letztes Beispiel: Ein Test mit sehr niedriger ursprünglicher Conversion-Rate, ganz am Ende des Conversion-Prozesses, mit gerade mal 2% Conversions. Die potenzielle Steigerung ist ebenfalls sehr niedrig, sagen wir 5%, was die Conversion-Rate auf 2,1% erhöhen würde. Für diesen Test werden 310.000 Besucher benötigt, und das pro Variante. Nur wenige große E-Merchants können solche Besucherzahlen aufweisen.
6 Schlusswort
Sie sehen, dass der benötigte Traffic nicht unerheblich ist. Die Beispiele zeigen, dass die Behauptung, dass alle Tests statistisch relevante Ergebnisse bringen können, einzig den Verkauf der Tools fördern soll. Stellen Sie sicher, dass Sie die richtigen Entscheidungen treffen, bezüglich Ihrer Tests und der Wahl Ihrer Tools. Prüfen Sie, welche Art von Tests Sie mit dem Traffic Ihrer Webseite durchführen können.
Verstehen Sie mich nicht falsch: Webseiten mit wenig Traffic können durchaus A/B-Tests durchführen. Solange es sich um Test von Landing Pages oder um Änderungen handelt, die potenziell große Conversion-Steigerungen hervorrufen. Das können Klicks auf ein Banner, Anmeldung bei einem Newsletter, Ausfüllen eines Formulars auf B2B-Webseiten, usw. sein.
Auch Tests innerhalb des Conversion-Prozesses sind nicht ausgeschlossen, wenn sie ein großes Verbesserungspotenzial bieten. Das ist übrigens oft der Fall bei neuen Webseiten Bei anderen Tests wird die Verbesserungsrate weit niedriger eingeschätzt.
Beispiel: Tests von bestimmten Aktionen am Ende des Conversion-Prozesses wie die Ablage in den Warenkorb, besonders bei etablierten Webseiten mit wenig Optimierungsspielraum. Hier benötigt man einen weitaus größeren Traffic, um die statistische Signifikanz der Ergebnisse zu gewährleisten. Diese Tests sind großen E-Merchants oder Medienwebseiten vorbehalten.
Abschließend sei noch daran erinnert, dass ein Test erst zuverlässige Ergebnisse bringt, wenn er abgeschlossen ist. So verlockend es ist, die Ergebnisse schon vorher einzusehen: Sie haben keinen statistischen Wert, auch wenn der Konfidenzlevel zu diesem Zeitpunkt bei über 95% liegt.
Wenn Sie mehr über mögliche Fehlerquellen beim A/B-Testing wissen möchten, empfehlen wir die Lektüre unseres Guides A/B-Testing Fehler und wie man sie vermeidet.