Statistik: die Rolle von A/A-Tests
Die falsche Deutung der statistischen Signifikanz ist eine der größten Fehlerquellen des A/B-Testing – und dem wollen wir entgegenwirken!
Dieser Artikel ist Teil eines Dreiteilers, der A/B-Testern und Entscheidungsträgern helfen möchte, die vorhandenen Indikatoren richtig zu deuten, die richtigen Schlüsse zu ziehen - und die richtigen Entscheidungen für ihr Unternehmen zu treffen!
Nach einem Artikel über den Vertrauensindex und den statistischen Wert von A/B-Tests geht es heute um A/A-Tests, in denen das Original gegen das Original getestet wird. Ja, das kann (in seltenen Fällen) durchaus sinnvoll sein.
1 Warum A/A-Tests?
Es gibt eigentlich nur einen Grund, A/A-Tests durchzuführen. Mit einem solchen Test kann geprüft werden, ob Ihr A/B-Testing-Tool korrekt eingestellt ist. Man sieht, ob identische Varianten auch identische Ergebnisse und Conversion-Raten bringen.
2 Warum die Ergebnisse überraschen können
Meistens fallen die Ergebnisse sehr ähnlich aus, das ist ja auch logisch. Aber es kann auch passieren, dass die Zahl der Conversions sehr unterschiedlich ist, und das trotz einem Vertrauensindex von 95%. Ein Sieger wird ermittelt, wo eigentlich keiner sein dürfte. Ein solches Ergebnis heißt nicht unbedingt, dass Ihr A/B-Testing-Tool falsch eingestellt ist. Wahrscheinlicher ist, dass Sie einen falsch positiven Test haben.
Wie kann das passieren? Erstens haben Sie einen Vertrauensindex von 95%. Was heißt, dass 5% Risiko besteht, einen unechten Sieger zu ermitteln. Dieses Risiko wird größer, wenn Sie den Vertrauensindex zu früh einsehen. Der Index ist nur am Ende des Tests statistisch relevant. Er kann bei einer bestimmten Besucherzahl bei 95% liegen, dann auf 60% sinken usw. Erst wenn genügend Besucher getestet wurden, ist der Vertrauensindex auch wirklich vertrauenswürdig und hat statistischen Wert.
Nehmen wir ein Beispiel. Man vergleicht das Durchschnittsalter zweier Städte. Dafür arbeitet man mit Stichproben, die repräsentativ und groß genug sein müssen. Stadt A wird mit Stadt B verglichen, es handelt sich um einen A/B-Test. Ein A/A-Test wäre der Vergleich von zwei Stichproben derselben Stadt.
Um statistisch korrekt vorzugehen, müssten wir zuerst den Vertrauensindex festlegen, den wir erreichen möchten (95%), sowie die Größe der Stichproben (z.B. 10.000). Wenn die Studie bis zum Ende durchgeführt wird, dürften die Ergebnisse identisch sein. Sieht man aber während der Befragung schon Teilergebnisse ein, läuft man Gefahr, verfälschte Informationen zu erhalten. Wenn man nach den ersten 100 befragten Personen notiert, dass eine der Gruppen ein höheres Durchschnittsalter hat, hilft auch der Vertrauensindex nichts: es handelt sich um ein falsches Ergebnis.
Das Beispiel zeigt, dass die befragte/getesteten Gruppen groß genug und repräsentativ sein müssen, um das Risiko falscher Ergebnisse so weit wie möglich auszuschalten. Keine halben Sachen machen! Führen Sie Ihren Test weiter, bis die zu Beginn festgelegte Zahl von Teilnehmern erreicht ist..
3 A/A/B-Tests
Diese Art Tests erfreuen sich wachsender Beliebtheit.
Die Idee: ein klassischer A/B-Test wird um einen A/A-Test erweitert, um die Gültigkeit des Ergebnisses der Variante B zu bestätigen. Wenn die „zweite“ Variante A keinen Unterschied zur Referenz aufzeigt, wird angenommen, dass die Ergebnisse der Variante B umso vertrauenswürdiger sind.
Es ist nur normal, dass man sich absichern möchte. Aber die Ergebnisse des A/A-Tests haben keinerlei Einfluss auf die Gültigkeit des A/B-Tests. Statistisch gesehen hat der A/A-Tests 5% Chancen, ein falsch-positives Ergebnis zu produzieren. Ist das Ergebnis des A/A-Tests verfälscht, heißt das aber nicht, dass der A/B-Test es auch ist. Denn wenn der Vertrauensindex des A/B-Tests bei 95% liegt, bestehen wirklich 95% Chancen, dass das Ergebnis korrekt ist, unabhängig vom Ergebnis des A/A-Tests.
Kurzum, auch wenn der A/A/B-test auf den ersten Blick eine interessante Methode der Absicherung zu sein scheint, hat sie leider keinerlei Einfluss auf die statistische Gültigkeit eines A/B-Tests.
4 Schlusswort
A/B-Testing ist von Haus aus eine statistische Methode. Das heißt, dass die Stichproben unendlich groß sein müssten, damit die Ergebnisse zu 100% zuverlässig sind. Aber auch wenn die Gültigkeit nicht bei 100% liegt, stellt das keinesfalls das A/B-Testing in Frage. Die Ergebnisse sind zuverlässig, vorausgesetzt die Zahl der Besucher und die Dauer des Tests sind ausreichend.
Womit wir beim Thema des letzten Artikels unserer kleinen Serie wären: Der nötige Traffic, um relevante Ergebnisse zu erhalten und unsere Empfehlungen zu dieser Thematik.
Mehr über A/B-Tests im Allgemeinen finden Sie in unserem White Paper A/B-Testing.