Wann kann ein A/B-Test beendet werden?

24 July 2018

Lesezeit :

5 min

Michael Witzenleiter

Michael Witzenleiter ist CEO und Gründer von Conversion Maker, einem Technologie-Unternehmen für Conversion-Rate-Optimierung. Neben der eigenen KI-gestützten Software Conversion Maker AI zur Erstellung und Optimierung von Marketing-Texten, setzt das Unternehmen dafür auf eine Palette führender Lösungen von Drittanbietern. Michael Witzenleiter beschäftigt sich bereits seit über 15 Jahren mit Online Marketing und etablierte bis Ende 2021 als Managing Director die französische A/B-Testing-Plattform Kameleoon im deutschsprachigen Raum.

Eine der häufigsten Fehlerquellen des A/B-Testing ist, Tests zu früh zu stoppen. Wann soll der Test enden? Es gibt einfach keine allgemein gültige Antwort auf diese Frage. Wir möchten hier die Konzepte und Elemente aufzeigen, die für die Festlegung des Testendes in Betracht gezogen werden müssen, sei es mit der Bayes'schen oder der Frequentist-Methode.

Welche Elemente müssen in Betracht gezogen werden?

Folgende Parameter haben Auswirkungen auf die Berechnungen des Testendes:

Konfidenzniveau
Stichprobengröße
Testdauer
Datenvariabilität

PS: Keines der Elemente ist allein Grund genug, den Test zu beenden, die Kenntnis dieser Konzepte hilft aber bei Ihren Entscheidungen.

1 Konfidenzniveau

Vertrauen Sie keinem unter 95%! Was nicht heißt, dass Sie den Test beenden sollten, sobald das Niveau erreicht ist. Wenn Ihr A/B-Testing-Tool mitteilt: „Die Variante hat x% Wahrscheinlichkeit, besser als die Kontrollversion abzuschneiden“, dann informiert es Sie über das Konfidenzniveau. Anders gesagt: Es besteht ein 5%iges Risiko (ein Zwanzigstel), dass die Ergebnisse rein zufällig entstanden sind. Ich kann Ihnen garantieren, dass Sie nicht weniger als 95% wollen. 80% hört sich auch schon nach einem soliden Niveau an. Aber wenn Sie den Test bei einem Niveau von 80% stoppen, steigt die Wahrscheinlichkeit eines falschen Ergebnisses von 5% auf 20%! Sie brauchen mehr als ein solides Ergebnis, Sie wollen ein statistisch gültiges Ergebnis. Ihre Zeit und ihr Geld stehen auf dem Spiel, gehen Sie kein Risiko ein! Heißt das also, dass ich todsicher richtig liege, wenn mein Tool mir sagt, dass meine Variante bei 95% liegt? Ehrlich gesagt, nein.

Das Kofidenzniveau ist nötig, aber nicht ausreichend, um das Testende zu bestimmen. Bei einem unechten Test, in dem zwei identische Varianten getestet werden (A/A-Test) liegt die Wahrscheinlichkeit, 95% zu erreichen, bei ca. 70%. Das Konfidenzniveau allein ist also nicht ausreichend.

2 Stichprobengröße

Sie brauchen eine repräsentative Stichprobe all ihrer Besucher (außer wenn Sie mit Ihrem Test auf ein bestimmtes Segment abzielen möchten), groß genug , um nicht der natürlichen Datenvariabilität ausgesetzt zu sein. Wählen Sie eine Gruppe, deren Verhalten repräsentativ für die gesamte Audience ist. Sie müssen Ihre Besucher wirklich gut kennen. Analysieren Sie sie genau, bevor Sie A/B-Tests durchführen. Hier nur zwei Beispiele der Punkte, die Sie kennen sollten:

Wie viele Besucher kommen über Pay-Per-Click, direkten Traffic, organischen Traffic oder E-Mail
Anteil wiederkehrender / neuer Besucher
…

Aber weil sich der Traffic ständig weiterentwickelt, können Sie ihn nie 100-%ig kennen. Deshalb müssen Sie sicherstellen, dass die Stichprobe proportional und von der Zusammenstellung her repräsentativ für Ihren gesamten Traffic ist. Wenn die Stichprobe zu klein ist, ist der Einfluss von Sonderfällen höher. Je kleiner die Stichprobe, desto größer die Schwankungen Ihrer Messwerte. Nehmen wir ein Beispiel aus dem täglichen Leben. Wir werfen eine Münze zehn Mal. Wir wissen, dass die „echte“ Wahrscheinlichkeit, Kopf zu sehen, bei 50% liegt. 1.Wir machen 5 Serien mit 10 Würfen.

Die Ergebnisse schwanken zwischen 20 und 80%. 2. Gleiches Experiment, aber wir werfen die Münze nicht 10, sondern 100 Mal.

Die Ergebnisse schwanken zwischen 47 und 54%. Je größer die Stichprobe, desto näher kommt man also dem „echten“ Wert. Noch leichter kann man es an einem konkreten Fall erklären. Sie machen einen Test und haben bereits an Tag 1 Ihre Siegervariante ermittelt – weil Sie an diesem Tag Ihren Newsletter versendet haben und ein Großteil der Besucher bereits Kunden sind. Kunden haben eine bessere Meinung von Ihnen als normale Besucher, also reagieren sie positiver auf Ihr Experiment. Würde der Test jetzt enden, hätten Sie verfälschte Ergebnisse, auch wenn das Konfidenzniveau bei über 95% liegt.

Wie groß sollte die Stichprobe sein?

Es gibt leider keine magische Zahl, die all Ihre Probleme löst. Alles hängt davon ab, wie groß die Verbesserung, die Sie suchen, sein soll. Je größer die Verbesserung ausfallen soll, desto kleiner kann Ihre Stichprobe sein. Aber selbst wenn sie Google-artigen Traffic haben, ist das an sich kein Grund, den Test zu stoppen. Wir kommen später darauf zurück. Ein Punkt gilt für alle Methoden: Je mehr Daten Sie sammeln, desto akkurater und vertrauenswürdiger sind Ihre Ergebnisse.

Das Ergebnis hängt darüber hinaus von der Methode ab, die Ihr Tool benutzt. Anbei der Rat, den wir unseren Kunden geben (Vorsicht, die Zahlen gellten nur, wenn Ihre Software die Frequentist-Methode nutzt): Wir empfehlen, einen Rechner wie diesen anzuwenden (Wir haben natürlich einen leistungsstarken Rechner in unserer Lösung, dieser ist aber ebenfalls sehr gut). So erhalten Sie eine einfach auszuwertende Zahl, müssen sich nicht zu sehr mit Mathematik herumschlagen und sind nicht versucht, Ihren Test verfrüht zu beenden, da Sie wissen, dass Sie die Testergebnisse vor dem Erreichen dieses Werts noch nicht einmal ansehen sollten. Anwendung des Rechners: Geben Sie einfach die aktuelle Conversion-Rate Ihrer Seite und die minimale angestrebte Verbesserung ein. Drittens empfehlen wir mindestens 300 Conversions pro Variante, bevor Sie auch nur an ein Testende denken. Noch einmal: Es gibt keine magische Zahl. Wenn der Traffic unserer Kunden es erlaubt, visieren wir auch schon mal 1.000 Conversions an. Wie gesagt: je größer desto besser. Es kann auch eine kleinere Zahl sein, wenn der Unterschied zwischen Kontrollversion und Variante wirklich erheblich ist. Das müsste doch heißen, dass ich meinen Test abbrechen kann, wenn ich einen hohen Traffic habe und eine ausreichend große Stichprobe das Konfidenzniveau von 95% erreicht hat. Immer noch nein.

3 Testdauer

Ihre Tests sollten immer volle Wochen dauern, wir empfehlen mindestens 2 bis 3 Wochen. Falls möglich ist es sinnvoll, die Dauer auf einen Geschäftszyklus (oder zwei) auszurichten. Warum? Sie wissen vielleicht, dass es für E-Mails und soziale Netzwerke optimale Tage (oder sogar Stunden) gibt. Menschen reagieren je nach Wochentag unterschiedlich, ihr Verhalten wird von mehreren externen Faktoren beeinflusst (Wetter, Nachrichten, Schlussverkauf, usw.). Das Gleiche gilt für Ihre Conversion-Rate.

Probieren Sie es selber aus. Testen Sie Ihre Conversion einmal pro Tag, Sie werden sehen, wie stark die Ergebnisse von einem Tag zum anderen schwanken. Es ist wichtig, immer ganze Zyklen zu testen, das schaltet bereits einen Teil des Einflusses externer Elemente aus. Und falls Sie Ihren Test verlängern müssen, verlängern Sie immer um eine komplette Woche. Tests, die an einem Donnerstag starten, sollten auch an einem Donnerstag enden.

4 Datenvariabilität

Solange Konfidenznzniveau und Conversion-Raten Ihrer Varianten erheblich schwanken, den Test nicht beenden! Zwei Aspekte müssen bedacht werden: Neuigkeitseffekt: Besucher reagieren auf die Veränderung, weil sie neu ist. Dieser Effekt lässt mit der Zeit nach. Regression zum Mittelwert: Je mehr Daten Sie haben, desto näher kommen Sie dem „echten“ Wert. Ihr Test schwankt am Anfang stark, weil bei wenigen Messwerten Sonderfälle einen stärkeren Einfluss haben. Weitere Gründe also, dass das Konfidenzniveau nicht das einzige Kriterium der Testbeendung sein darf. Sie sollten mehrmals die 95%-Marke erreichen, bevor Sie den Test beenden können. Warten Sie mit dem Testende, bis die Kurve des Konfidenzniveaus flacher wird. Das Gleiche gilt für die Conversion-Raten der Varianten. Warten Sie, bis die Schwankungen für die gegebene Situation und aktuellen Raten unerheblich sind. Nehmen wir das Beispiel eines Tests mit 2 Varianten:

Version A mit einer Conversion-Rate von 18,4% ± 1,2%
Version B mit einer Conversion-Rate von 14,7% ± 0,8%.

Das heißt, dass die Conversion-Rate zwischen 18,4%-Punkten minus 1,2 % und 18,4 Prozentpunkten plus 1,2 % liegt, und die der Version B zwischen 14,7 Prozentpunkten minus 0,8 % und 14,7 Prozentpunkten plus 0,8 % liegt. Wenn die beiden Intervalle sich überschneiden, auf jeden Fall weiter testen! Die Intervalle werden mit steigender Testdauer immer kleiner und die Ergebnisse präziser. Am besten die Ergebnisse vor Testende nicht einmal ansehen! So kommen Sie gar nicht erst in Versuchung, den Test zu früh zu beenden.

Kurzum, um einen Test beenden zu können, brauchen Sie:

Konfidenzniveau von 95%
repräsentative Stichprobe Ihrer Audience
ausreichende Testdauer
Stabilisierung von Conversion-Raten und Konfidezniveau.

Beenden Sie Ihren Test erst, wenn all diese Bedingungen erfüllt sind! Ist das nicht der Fall, gehen Sie das Risiko ein, Zeit und Geld zu verlieren.

Themen in diesem Artikel