Statistiques bayésiennes vs fréquentistes : quelle méthode adopter pour vos A/B tests ?
En matière de significativité statistique, le monde de l’A/B testing se divise en deux camps :
- ceux qui plébiscitent une méthode fréquentiste, basée sur l’observation de faits à l’instant T.
- ceux qui défendent la méthode bayésienne, une approche prévisionnelle, qui s’appuie sur l’étude de faits antérieurs.
Quels sont les mérites et les inconvénients de chacune de ces approches pour calculer l’indice de confiance de vos tests A/B ? Faut-il vraiment choisir entre les statistiques bayésiennes ou fréquentistes ? Le débat est toujours d’actualité et dans cet article, nous vous donnons un éclairage sur la question.
1 Statistiques bayésiennes vs fréquentistes, quelles différences ?
Depuis le siècle des Lumières, deux écoles statistiques s'affrontent : les fréquentistes et les bayésiens.
La statistique fréquentiste, que nous pourrons qualifier d'expérimentale ou d'inductive, repose sur la loi des observations.
La statistique bayésienne, que l'on peut qualifier de théorique ou déductive, permet de combiner l’information apportée par les données avec les connaissances a priori provenant soit d’études antérieures soit d’avis d’experts, dans le but d'obtenir une information a posteriori.
Afin de mieux comprendre la différence entre ces deux approches, prenons un exemple simple.
Lançons une pièce 10 fois.
- Si on se base sur une modélisation fréquentiste, alors il existe une « vraie » probabilité d'obtenir pile, qui a comme valeur p. Si par exemple, on obtient 6 fois sur 10 pile, alors la probabilité d'obtenir pile à partir des résultats de cette expérience est égale à 6/10 = 0.6.
- Selon l'approche bayésienne, on ne s’intéresse pas à cette probabilité mais plutôt à sa loi a priori. En effet, si la pièce est équilibrée alors a priori la probabilité d'obtenir pile est la même que celle d'obtenir face, c'est-à-dire 1/2 = 0.5. Cette probabilité a priori est obtenue à partir des résultats d'autres expériences effectuées par le passé.
Il est évident que la probabilité calculée par la méthode fréquentiste convergera vers 0.5 si la pièce est lancée un nombre important de fois.
2 Approche bayésienne : intérêts et limites
L’intérêt de l’approche bayésienne est fort quand on peut tenir compte d’expériences passées parfaitement similaires. Elle est donc utilisée dans plusieurs domaines comme par exemple la détection de spams : la connaissance préalable des spams permet d’associer une probabilité correspondant au nombre de fois où un type de mot apparaît.
Cette probabilité, obtenue grâce aux expériences passées, permet de considérer un mot comme étant typique d’un spam. Le principal avantage de la méthode est donc de s'affranchir d’un horizon fixe et d'avoir des résultats le plus rapidement possible.
Par ailleurs, il est inutile de fixer au préalable la taille d’un échantillon nécessaire et d’un niveau de trafic pour effectuer un test : les résultats sont consultables tout au long de l'expérience et sont plus rapides à obtenir.
QUELLES SONT LES LIMITES D’UNE APPROCHE BAYESIENNE
L'approche bayésienne part d'un postulat qui est éminemment objectif quand il s’agit de lancer une pièce mais peut être qualifié d’éminemment subjectif quand il s’agit d’une expérience utilisateur. Prendre en compte des résultats précédents qui se sont produits dans une autre échelle de temps et dans des conditions potentiellement complètement différentes n’est tout simplement pas recommandé, sinon proscrit, dans l’A/B testing. En effet, le 1er précepte de la pratique est en effet de comparer deux variantes exactement dans les mêmes conditions de traitement, donc concomitamment et non séquentiellement.
Des résultats invalides
La statistique bayésienne déduit la probabilité d'un événement en tenant compte de celles d'autres événements déjà évalues : dans le contexte d'un test A/B, la connaissance a priori peut être affectée par un effet de saisonnalité ou simplement de tendance et fausser les résultats.
En d'autres termes, le risque de détecter un faux positif devient beaucoup plus élevé. Pas forcément grave dans le cas d’un spam ; beaucoup plus problématique dans le cas d’un test A/B.
Des résultats imprécis
La méthode bayésienne a aussi comme inconvénient d'être nettement plus difficile à appréhender : les statistiques bayésiennes cherchent à calculer une distribution de probabilités, qui est un concept plus complexe qu'un simple indicateur de confiance. Dans le cas de l'A/B testing, cette distribution de probabilités se base sur les gains ou pertes de conversion.
Simplifier à l'extrême cette distribution pour la ramener à un simple intervalle de type [-0,5 %, +2%] de gains n'apporte pas un éclairage suffisant au marketeur dans la lecture des résultats (est-ce -0,5 % ou plutôt +2% ?). D'autant qu'en réalité, la distribution est évidemment basée sur l'intervalle [-∞, +∞]. Le « cut-off » sur l'intervalle [-0,5 %, +2%] est arbitraire à partir d'un seuil où l’on juge que les poids statistiques sont négligeables.
3 Approche fréquentiste : intérêts et limites
La méthode fréquentiste, universellement employée dans l’économie ou la santé s’est également imposée à l’A/B testing depuis sa création. Cette méthode se base uniquement sur les données du test dans des conditions rigoureusement similaires pour les variantes (d’où sa réputation de méthode « data-driven »).
La méthode fréquentiste comprend également certains inconvénients :
- Le niveau de trafic requis ne permet pas tout type de tests en toute circonstance. Il est difficile, ou très long d’obtenir des résultats significatifs lorsque l’on effectue des A/B tests sur des pages ayant un trafic faible.
- La fiabilité des résultats n’est réelle qu’à l’issue du test. Il faut savoir résister à la tentation du « repeated picking » en cours de test car les résultats intermédiaires n’ont tout simplement aucune validité.
- Comme l’atteste la pratique du test A/A, le risque d’obtenir un faux résultat positif subsiste.
4 Quelle approche privilégier, fréquentiste ou bayésienne ?
LA MÉTHODE BAYÉSIENNE À L’ÉPREUVE DE LA MÉTHODE FRÉQUENTISTE
L’une des analyses les plus rigoureuses confrontant l'approche fréquentiste à l'approche bayésienne a été réalisée par le statisticien Valen Johnson qui l'a résumée dans un article paru dans les actes de l'Académie des sciences américaine en 2013 (1).
Son analyse fréquentiste avait comme objectif d'explorer les données collectées pour en faire émerger un effet significatif qui ne peut s'expliquer autrement que par l'hypothèse de l'expérience.
Son analyse bayésienne confrontait deux hypothèses et évaluait les chances que l'une soit vraie par rapport à l'autre, en se basant sur les données disponibles à l'instant de l'expérience et des informations connues au préalable sur le sujet.
Sa conclusion est que le seuil de significativité statistique, couramment admis de 95%, est insuffisant dans le cas de l’approche bayésienne pour conclure que le test est significatif.
Autrement dit, il ne fait que conforter le choix des éditeurs de solutions d'A/B testing pour l’approche fréquentiste.
Faut-il disqualifier la méthode bayésienne ?
Non, car elle possède des atouts très appréciables quand les circonstances le permettent. Il s’avère que le monde de l’A/B testing a logiquement adopté l’approche fréquentiste car la plus forte fiabilité et la moindre complexité de lecture des résultats l’emportent largement sur les inconvénients cités plus haut.
De manière plus générale, l’appréciation du choix de la méthode fréquentiste vs bayésienne tourne très rapidement à un débat d’experts bien éloigné des préoccupations des équipes marketing. Dans l’absolu, il n’y a pas de meilleure méthode qu’une autre, l’important est de bien comprendre les logiques sous-jacentes ou d’être conseillé par quelqu’un qui les maîtrise bien.
5 Existe-t-il d'autres méthodes de calcul statistiques ?
Il est compliqué de concilier fiabilité et rapidité dans l'expérimentation. L'impulsivité peut causer des erreurs : il est risqué d'utiliser des résultats avant d'avoir atteint une pertinence statistique, ce qui pourrait fausser votre analyse. La méthode de calcul statistique CUPED vous permet de réduire la taille de l’échantillon nécessaire de près de 60 % et d'obtenir des résultats plus rapides, sans altérer la qualité des données. CUPED utilise vos données de tests pour améliorer la précision de ses résultats. Effectuer plus de tests permettra d'améliorer sa fiabilité.
Dans les situations où vous manquez de temps, vous pouvez aussi utiliser les tests séquentiels pour prendre des décisions plus rapidement. Avec cette méthode, vous pouvez consulter vos données sans devoir attendre un échantillon prédéterminé. Les intervalles de confiance pour les effets de votre variation restent valables, peu importe le nombre de vérifications de vos résultats.