Warum Statistik für A/B-Tests wichtig ist
Die falsche Deutung der statistischen Signifikanz ist eine der größten Fehlerquellen des A/B-Testing – und dem wollen wir entgegenwirken! Dieser Artikel ist Teil eines Dreiteilers, der A/B-Testern und Entscheidungsträgern helfen möchte, die vorhandenen Indikatoren richtig zu deuten, die richtigen Schlüsse zu ziehen - und die richtigen Entscheidungen für ihr Unternehmen zu treffen!
Heute knöpfen wir uns das Konfidenzlevel vor, das heißt das Vertrauen, das wir den Ergebnissen unserer Tests schenken dürfen.
1 Was genau ist das Konfidenzlevel?
Das Konfidenzlevel wird für die Version A und B eines Tests errechnet. Verglichen werden die Zahl der Besuche und die Zahl der Conversions pro getestete Variante, d.h. insgesamt 4 Kennzahlen.
Im Fall eines „normalen“ A/B-Tests wird die Referenz mit der Variante verglichen. Bei komplexeren Tests (wie A/B/C/D-Tests) können es auch Variante B und D sein. Alle A/B-Testing-Tools errechnen das Konfidenzlevel für jeden Test. Auch wenn das nicht der Fall wäre (z.B. mit einer Web Analytics-Lösung), könnte man den Index mit einer mathematischen Formel errechnen. (Wenn Sie sich für die mathematischen Formeln interessieren, können sie sie hier die Formel des zScore und hier die Errechnung der „Chance to beat the Original“ über zScore einsehen!)
2 Statistik muss ernst genommen werden
Normal, dass die User dem Indikator der statistischen Signifikanz ihrer Lösung vertrauen. Außer bei ernsten Störungen sind die Berechnungen korrekt. Leider ist aber die Auswertung der Ergebnisse manchmal verkehrt. Ohne fachmännische Begleitung sind einige User versucht, nur die Entwicklung der Conversion-Kurven der Varianten zu beobachten. Andere verfolgen permanent die Entwicklung des Index, um eine Tendenz zu entdecken.
Noch schlimmer sind die Ratschläge unqualifizierter Außenstehender. Es geht natürlich nicht darum, ein Statistikexperte zu werden, zumal einige Konzepte kontra-intuitiv sind. Aber die Statistik hat ihre Gesetze, denen Sie folgen sollten. Alle Meinungsforscher folgen diesen Basisregeln, schade, dass das bei A/B-Testern (noch) nicht der Fall ist.
3 Keine Garantie der „echten“ Conversion-Steigerungen
Zuerst sei bemerkt, dass es unmöglich ist, die exakte Steigerung der Conversion durch die Gewinnervariante zu messen. Genauer gesagt gibt es rein statistisch gesehen keine Garantie, dass die beobachtete Conversion-Steigerung die „echte“ ist, die sich durch die permanente Einstellung der Variante ergeben würde. Und das Konfidenzlevel zeigt nur die Rate der Wahrscheinlichkeit an, die Sie hätten, dass bei dem gleichen Test unter gleichen Bedingungen dieselbe Variante gewinnen würde.
Das Ergebnis muss binär verstanden werden: Entweder A gewinnt gegen B oder B gegen A. Deshalb wird das Konfidenzlevel auch oft als die „Wahrscheinlichkeit, gegen das Original zu gewinnen“ (Chance to beat the original) bezeichnet.
Wenn Sie z.B. eine Conversion-Steigerung um 15% verzeichnen, bei einem Konfidenzlevel von 99%, heißt das nur, dass Ihre Variante 99% Wahrscheinlichkeit aufweist, auch bei einem erneuten Test als Sieger hervorzugehen, nicht aber, dass 99% Chancen bestehen, dass das Ergebnis wieder bei +15% liegen wird. Die Conversion könnte ebenso gut nur um 3% steigen.
Natürlich heißt das andererseits auch nicht, dass das Ergebnis von 15% nicht bezeichnend ist. Aber das Konfidenzlevel misst einfach etwas anderes. Und die Ergebnisse werden von anderen Faktoren beeinflusst wie z.B. Stichprobengröße und Traffic. Sind beide eher niedrig, können große Abweichungen verzeichnet werden. Bei hohem Traffic sind die Steigerungen eher gering. Die fehlende Garantie einer bestimmten Steigerung ist kein Problem an sich, denn wenn Sie sicher sind, dass eine Variante besser abschneidet, werden Sie sie eh einstellen wollen.
Und Sie können auch positive Überraschungen haben: eine Conversion-Steigerung um 2% im Test kann zu einer Steigerung um 10% nach der Umsetzung der Änderungen führen!
4 Es hat keinen Sinn, das Konfidenzlevel permanent zu verfolgen
Die Dashboards der A/B-Testing-Tools bieten eine relativ nutzlose Feature: Man kann den Konfidenzlevel eines Tests von Anfang an im Auge behalten und seine Entwicklung verfolgen. Dabei ist die Entwicklung des Werts uninteressant. Das Konfidenzlevel basiert auf einer bestimmten Zahl von Conversions und beschreibt die Wahrscheinlichkeit, bei einem weiteren Test zum gleichen Ergebnis zu gelangen.
Wenn das Konfidenzlevel nach 50 Besuchen bei 90% liegt, ist er wenig aufschlussreich. Die Stichprobe ist einfach zu klein, um repräsentativ zu sein. Sie können sehr gut im Laufe eines Tests mehrere Werte für das Konfidenzlevel verzeichnen: 90% nach 1.000 Besuchen, 65% nach 15.000 Besuchen und 95% bei 50.000 Besuchen. Die ersten Zahlen sind für Ihre Strategie nutzlos.
Auch mathematisch hat eine Kurve der Entwicklung des Konfidenzlevel wenig Sinn. Eigentlich sollte das Konfidenzlevel erst sichtbar sein, wenn der Test seinem Ende zugeht, d.h. kurz bevor die geplante Zahl der Besuche erreicht ist. So käme man gar nicht erst in Versuchung, schon vorher regelmäßig die Zahlen zu überwachen.
Es ist wichtig, Ihren gesamten Traffic zu testen. Sie können natürlich klein anfangen, um die Prozesse zu perfektionieren, aber je kleiner die Stichprobe der getesteten Besucher, desto größer die Wahrscheinlichkeit, dass die Ergebnisse verzerrt sind und eventuell eine falsche Gewinnervariante ermittelt wird.
5 Schlusswort
Das Konfidenzlevel misst also die Wahrscheinlichkeit, dass eine Variante als Sieger hervorgeht (und nichts anderes). Sie muss ein bestimmtes Niveau erreichen, bevor Sie eine A/B-Test beenden können.
Das Konfidenzlevel sollte aber nicht der alleinige Grund sein, einen Test zu beenden. Auch wenn er bei den normalerweise geforderten 95% liegt, hat das Ergebnis nicht zwingend statistischen Wert. Die Zahl der Besucher, die den Test durchlaufen haben, muss ebenfalls groß genug sein. Das Thema der nötigen Zahl der Testteilnehmer behandeln wir übrigens in einem weiteren Artikel unseres Dreiteilers.