Aller au contenu principal
valeur-statistique-ab-testing

Comprendre la valeur statistique d'un test A/B

9 juillet 2019
Jean-Noël Rivasseau Kameleoon
Jean-Noël Rivasseau
Jean-Noël est le fondateur et CTO de Kameleoon et dirige aujourd'hui le département R&D de l'entreprise. Il est un expert reconnu de l'innovation IA et du développement logiciel. Il partage dans notre blog sa vision du marché et son expertise des sujets technologiques.

Développer une compréhension solide des indicateurs de significativité statistiques de vos A/B tests est un prérequis indispensable pour savoir décrypter les résultats de vos expérimentations et orienter judicieusement votre stratégie. A ce titre, l’indice de confiance livre des informations précieuses sur vos tests A/B, encore faut-il savoir les interpréter. 

1 Qu'est-ce que l'indicateur de confiance d'un test A/B ?

Un indicateur de confiance se rapporte à deux versions (A et B) d'un test et s'obtient à partir du nombre d'observations (« visites ») et de conversions pour ces deux variantes (soit 4 données en entrée).

Cet indicateur se calcule entre la version de référence et la variante unique lors d'un test A/B, mais peut également s’appliquer entre les variantes B et D d'un test A/B/C/D) par exemple. Toute plateforme d'A/B testing fournit cet indicateur de confiance pour chaque test. Même en son absence (par exemple sur une solution de web analytics), il est possible de le calculer avec une formule mathématique standard.

NoteCeux intéressés par les formules mathématiques permettant de calculer la significativité statistique pourront se référer aux pages suivantes : calcul du zScore et obtention du 'chance to beat original' à partir du zScore.

2 Cultiver une approche statistique rigoureuse dans l’analyse des résultats de vos tests A/B

Les utilisateurs d’A/B testing font logiquement confiance à l’indicateur de significativité statistique fourni par leur solution. Dans la grande majorité des cas, le calcul est correct. Cependant, l’interprétation qui en est faite est parfois erronée. En l’absence de connaissances sur ce sujet pointu, certains utilisateurs pensent qu'il est suffisant d'observer l'évolution des courbes de conversion des variantes. D'autres encore regardent l'indicateur de confiance de manière quasi permanente en essayant de dégager une tendance.

Il ne s’agit pas de devenir expert en statistiques ou mathématiques appliquées, d’autant que certains concepts sont contre-intuitifs. En revanche, les statistiques ont des lois qui ne peuvent être ignorées. Vous êtes à présent avertis : pour obtenir un résultat fiable pour vos A/B tests, il faut connaître et comprendre quelques principes de base.
 

3 Distinguer gain de conversion et significativité de l'A/B test

La première chose à savoir est qu'il est impossible de connaître le gain exact apporté par une variante gagnante. Ou plus exactement, vous n'avez aucune garantie (en termes statistiques) que le gain de conversion donné par le test est le « vrai » gain de conversion, celui qui sera en réalité observé en production.

L’indice de confiance : la probabilité de battre l’original

En effet, l’indicateur de confiance représente le pourcentage de chances d'obtenir, dans des conditions rigoureusement identiques (en termes d'observations), le même résultat à l'avenir. Et par résultat, il faut comprendre uniquement une information binaire : soit A bat B, soit B bat A. Pour cette raison, l'indicateur de confiance est souvent appelé « probabilité de battre l'original » (« chance to beat original »).

Qu’est ce le gain de conversion ?

Ainsi, si vous avez un gain de conversion de 15 % pour votre variante et une significativité statistique de 99 %, cela signifie uniquement que votre variante a effectivement 99 % de chances de surperformer par rapport à l'original, mais pas qu'il y a 99 % de chances que le prochain gain de conversion soit de 15 %. Votre gain de conversion réel peut en fait n’être que de 3 %...

Quelle valeur accorder au gain de conversion de vos A/B tests ?

Attention, ceci ne veut pas dire non plus que le gain de conversion donné pour un test est totalement dénué de sens, uniquement que l'indicateur de confiance ne s'applique pas du tout à celui-ci. 

Là intervient la question de la taille de l’échantillon : sur un trafic et un nombre de conversions modestes, l’écart-type sera potentiellement très élevé. Sur un trafic important, il sera limité. Dans tous les cas, cette absence de garantie n'est pas problématique en soi. Dès lors qu'une variante bat l'original, vous avez intérêt à la passer en production, même si le gain de conversion est minime. Et ce qui peut jouer contre vous peut aussi jouer pour vous : un gain de conversion de 2 % obtenu en test peut se transformer en gain de conversion de 10 % plus tard en production...

4 Regarder l’évolution de l’indicateur de confiance dans le temps n'a pas de sens

Certains tableaux de bord de solutions d’A/B testing affichent, dès le début de l’expérimentation, un indicateur de confiance. Problème : l’évolution de cet indicateur au cours du temps n'a strictement aucune valeur et peut induire en erreur des utilisateurs non avertis.

En effet, un indice de confiance s'obtient à partir d'un nombre déterminé d'observations et représente un pourcentage de chances de parvenir au même résultat, avec le même nombre d'observations à l'avenir. Donc si vous avez un indice à 90 % mais uniquement obtenu sur 50 visites, vous avez bien une probabilité de retrouver le même résultat… mais sur 50 visites seulement.

En extrapolant, vous pouvez très bien avoir 3 valeurs de significativité différentes au cours d’un test, une de 90 % à 1 000 visites, une de 65 % à 15 000 et une dernière de 95 % à 50 000. Il ne faut pas tenir compte des deux premières valeurs, car la dernière est la seule représentative de votre trafic en production.

Du point de vue des mathématiques appliquées, une courbe d'évolution de la significativité en fonction du temps n’a pas de sens. En réalité, l'indice de confiance ne devrait être affiché qu'une fois le test terminé ou proche d’être terminé (ie : proche d’atteindre le nombre cible de visiteurs) afin d'éviter la tentation bien naturelle de regarder régulièrement ce chiffre. 
C’est la raison pour laquelle nous insistons toujours sur l’importance de réaliser des tests sur l’intégralité et non pas seulement une fraction de son trafic. Si cela a du sens de démarrer sur une faible part de son trafic afin de valider la bonne tenue d’un test, il est impératif de l’étendre sous peine de tirer de fausses conclusions sur la variante gagnante.

5 L’indicateur de confiance ne vous indique pas quand arrêter un test

Une conséquence importante, c’est qu'il ne faut pas utiliser l'indice de confiance comme indicateur pour arrêter un test. Malheureusement, le réflexe le plus naturel est d'observer cet indice et de stopper un test une fois qu'il a dépassé un seuil (par convention de 95%), mais cela n'a en réalité aucune valeur statistique. La bonne pratique est normalement de se fixer à l'avance (a priori) un seuil de visites ou de conversions, puis seulement ensuite de constater si le test est fiable ou non. 

Pour compléter cette première approche de la valeur statistique de vos tests, découvrez comment valider vos expérimentations en procédant à un test A/A, et assurez-vous que votre trafic est suffisant pour tester avec succès.


livre blanc ab testing kameleoon

Thèmes traités dans cet article
Jean-Noël Rivasseau Kameleoon
Jean-Noël Rivasseau
Jean-Noël est le fondateur et CTO de Kameleoon et dirige aujourd'hui le département R&D de l'entreprise. Il est un expert reconnu de l'innovation IA et du développement logiciel. Il partage dans notre blog sa vision du marché et son expertise des sujets technologiques.