KAMELEOONERS TOP FEATURES: Multiple Testing Correction by Jonas Maier
Unsere Consultants setzen sich täglich intensiv mit den vielfältigen Funktionen von Kameleoon auseinander. In unserer Blogartikelserie „Kameleooners Top Features“ werfen unsere Experten einen genaueren Blick auf unsere besten Kameleoon-Features und zeigen, auf welchen Wegen sie genutzt und individuell eingesetzt werden können.
Viele Optimierungs-Teams stellen sich die Frage, ob und wenn ja, wie viele Varianten sie gleichzeitig testen können, ohne dabei die Aussagekraft der gewonnenen Daten zu beeinträchtigen. In diesem Blogartikel beleuchtet Jonas, welche statistischen Probleme beim gleichzeitigen Testen mehrerer Varianten auftreten können und welche Lösung Kameleoon bietet, damit Sie Ihren Ergebnissen auch bei der Auswertung eines A/B/n-Tests vertrauen können.
1 Multiple Testing Correction
Was kann dieses Feature?
Vielleicht kennen Sie folgendes Szenario: Um neue Testideen zu entwickeln, analysieren Sie Ihre Website, werten Analytics-Daten, Umfragen, Screen-Recordings oder Heatmaps aus, um Pain Points in der User Journey aufzudecken. Für die Lösung der gefundenen Probleme brainstormen Sie mit Ihrem Team viele verschiedene Lösungsansätze und erstellen möglicherweise erste Designs für mögliche Umsetzungen. Weil jede Variante unterschiedliche Vor- und Nachteile mit sich bringt, fällt die Entscheidung, welche Variante gegen das Original in einem A/B-Test antreten soll, nicht immer leicht.
Daher ist es verlockend, direkt mehrere Varianten gleichzeitig zu testen. Dies ist mit Kameleoon auch problemlos möglich, allerdings sollten Sie vor der Auswertung der Daten nicht vergessen, die multiple testing correction zu aktivieren (zumindest, wenn Sie die frequentistische Auswertungsmethode nutzen ≠ Bayesian).
Welche Vorteile bietet dieses Feature?
Haben Sie schon mal vom „Multiple Comparison Problem“ oder der „Alphafehler-Kumulierung“ gehört? Wenn Sie mehrere Varianten gleichzeitig gegen das Original testen, steigt die Wahrscheinlichkeit, ein falsch-positives Ergebnis (α-Fehler oder Type-1-Error) zu erhalten, mit jeder zusätzlichen Variante an.
Im Folgenden werde ich in Kurzfassung darauf eingehen, was ein falsch-positives Ergebnis ist und weshalb mehrere Varianten das Risiko eines falsch-positiven Ergebnisses erhöhen.
Grundsätzlich gilt:
Wenn Sie einen Unterschied zwischen dem Original und der Variante messen, gibt es immer zwei mögliche Erklärungen dafür:
- Die gemessenen Unterschiede sind rein zufällig zustande gekommen. Ihre Variante ist in Wahrheit gar nicht besser oder schlechter als das Original.
- Ihre Variante ist tatsächlich besser oder schlechter als das Original.
Durch die Festlegung eines niedrigen Signifikanzniveaus (α) versuchen wir die Wahrscheinlichkeit für den Fehler gering zu halten, einen rein zufällig gemessenen Unterschied als tatsächlich gültigen Unterschied wahrzunehmen (falsch-positives Ergebnis).
Üblicherweise spricht man von einem statistisch signifikanten Ergebnis, wenn der ausgegebene Wert für die Reliability/Zuverlässigkeit ≥ 95 % ist. Das heißt, das Signifikanzniveaus (α) wird auf 5 % festgelegt, was bedeutet, dass bei einem klassischen A/B-Test nur in 5 % aller Fälle ein signifikanter Unterschied angenommen wird, obwohl es in Wirklichkeit gar keinen gibt (Ergebnisse sind nur zufällig zustande gekommen).
Je mehr Varianten Ihr Test enthält, desto höher ist daher auch die Wahrscheinlichkeit, dass Sie ein falsch-positives Ergebnis erhalten (α-Fehler oder Type-1-Error). Sie können den kumulativen Alphafehler wie folgt berechnen:
Kumulatives Alpha = 1-(1-α)^k
α = Ihr gewähltes Signifikanzniveau, üblicherweise 0.05 oder 0.1
k = Die Anzahl der Varianten im Test (ohne Original
In der folgenden Grafik, haben wir bereits die Wahrscheinlichkeiten, ein falsch-positives Ergebnis zu erhalten, bei einem Signifikanzniveau (α) von 5 % berechnet:
Wie Sie sehen, steigt die Wahrscheinlichkeit, ein falsch-positives Ergebnis zu erhalten, mit jeder zusätzlichen Variante stark an. Von 5 % bei einer Variante zu bereits ca. 10 % bei zwei Varianten, etwa 30 % bei 7 Varianten bis zu mehr als 51 % bei 14 Varianten.
Noch drastischer wird das Problem, wenn Sie Ergebnisse mit einer Reliability ≥ 90% (α = 0.1) als statistisch signifikant bewerten und mehrere Varianten testen:
Bei einem Signifikanzniveau von α = 0.1 haben sie bereits bei 7 Varianten eine Wahrscheinlichkeit von mehr als 52 % ein falsch-positives Ergebnis zu erhalten.
Wenn es mit zusätzlichen Varianten etwa gleich wahrscheinlich wird, dass ein signifikantes Ergebnis entweder durch reinen Zufall entstanden ist oder durch den tatsächlichen Unterschied der Variante, wird die Interpretation des Ergebnisses zum Münzwurf. Um vertrauensvolle und interpretierbare Ergebnisse zu erhalten, müssen sie daher ihre Ergebnisse korrigieren. Dafür müssen sie aber keine komplizierten Formeln berechnen, mit Kameleoon ist dies schon mit zwei Klicks auf der Ergebnisseite möglich.
Wie kann dieses Feature eingesetzt werden?
Die multiple testing correction von Kameleoon hilft Ihnen bei Experimenten mit mehr als einer Variante dabei, die Wahrscheinlichkeit von falsch-positiven Ergebnissen zu reduzieren, indem die Berechnung der Zuverlässigkeit/Reliability korrigiert wird.
Wer sich für die genutzte Korrektur-Formel interessiert, kann sich in unserem Statistik-Paper genauer informieren. Nur soviel sei gesagt: Kameleoon nutzt für die Korrektur die Holm-Sidak-Methode, da sie leistungsfähiger ist als die Holm-Bonferroni-Korrektur.
Oben auf der Ergebnisseite, rechts von den Hauptinformationen des Experiments, befindet sich das allgemeine Aktionsmenü. Mit einem Klick auf Actions/Aktionen öffnet sich das Menü. Dort wählen Sie die Aktion „Add multiple testing correction“ aus, um die Korrektur zu aktivieren.
Sobald Sie die Korrektur aktiviert haben, können Sie anhand der Nachricht „Multiple correction enabled“ sehen, dass die Korrektur aktuell angewandt wird.
Nach der Aktivierung zeigt Kameleoon auf der Ergebnisseite Ihres Experiments die korrigierten Werte für die Reliability/Zuverlässigkeit an. Beachten Sie, dass der Wert für die Reliability/Zuverlässigkeit Ihres Experiments geringer sein wird, wenn die Korrektur für Mehrfachtests aktiviert ist. Daher kann es sein, dass einige Ziele nach der Aktivierung der Korrektur keine statistisch signifikanten Ergebnisse mehr ausweisen. Dies ist ein zu erwartendes Ergebnis der Aktivierung unserer Methode, da sie die statistische Signifikanz korrigiert. Wenn Sie zuvor andere Korrekturmethoden verwendet haben, werden sich diese Zahlen wahrscheinlich auch von diesen unterscheiden.
Es bleibt Ihnen überlassen, ob Sie die Korrektur für Mehrfachtests aktivieren möchten, obwohl wir die Verwendung dieser Methode sehr empfehlen. Auf jeden Fall sollten Sie sich entweder einmal dafür oder dagegen entscheiden. Der sogenannte Confirmation Bias führt nämlich dazu, dass wir meist nur Bestätigungen für unsere schon bestehenden Annahmen suchen und widersprüchliche Informationen ausblenden. Auch wenn es nachvollziehbar ist, dass sie möchten, dass ihre Variante gewinnt: Wenn sie verlässliche Daten haben möchten, ergibt es keinen Sinn, wenn sie die Korrektur zuerst anwenden und dann wegen weniger statistisch signifikanten Ergebnissen wieder deaktivieren.
Wenn Sie die Korrektur nicht aktivieren und sich bei Ihren Entscheidungen auf die Ergebnisse eines Experiments mit mehreren Variationen verlassen möchten, empfehlen wir Ihnen, mit der Ermittlung eines Gewinners zu warten, bis Sie eine höhere Zuverlässigkeit erreicht haben (z. B. 99 % anstatt 95 %).
Was macht dieses Feature zu deinem Lieblingsfeature?
Die multiple testing correction ist eines meiner Lieblings-Features in Kameleoon, da man dadurch auch bei Experimenten mit mehr als einer Variante verlässliche Ergebnisse erhält, bei der die Wahrscheinlichkeit eines falsch-positiven Ergebnisses nicht mit jeder Variante stark ansteigt.
2 Fazit
Wie wir gesehen haben, ist das Testen mehrerer Varianten gegen das Original mit Vor- aber auch Nachteilen verbunden. Sobald die multiple testing correction von Kameleoon aktiviert ist, müssen wir uns aber keine Sorgen mehr über die gestiegene Wahrscheinlichkeit von falsch-positiven Ergebnissen machen. Ich würde daher jedem Kunden empfehlen, die Korrektur zu aktivieren, sobald mehr als eine Variante getestet wird. Vielmehr sollten bei der Entscheidung, ob nur eine oder mehrere Varianten getestet werden auch andere Faktoren berücksichtigt werden, wie z. B. der verfügbare Traffic (mehr Varianten = mehr Traffic nötig), die meist verlängerte Testlaufzeit, die erhöhte Gefahr der Verunreinigung der Daten, wenn User unterschiedliche Devices nutzen und die Auswirkungen auf den minimale detectable effect (MDE).
In unserem nächsten Beitrag unserer Blogartikelserie „Kameleooners Top Features“ berichtet Gila, wie Sie mit dem Widget-Editor und gezielten Vorlagen Newsletter-Anmeldungen, Umfragen oder ausschließlich für das Informieren der Nutzer Pop-ups oder auch Pop-Ins erstellen können.
Lesen Sie auch den vorherigen Artikel über Anne's Top Feature: Capping über den grafischen Editor.
Fordern Sie eine Demo an, um die verschiedenen Kameleoon Features in Aktion zu sehen.
Noch Fragen oder neugierig? Wir freuen uns, von Ihnen zu hören. Bitte kontaktieren Sie uns unter [email protected]