Test A/A : comment ça marche ?
Les résultats de vos tests A/B sont-ils valides ? Pour le savoir, procédez à un test A/A !
Les tests A/A vous permettent de tester deux versions identiques d'un élément. Ainsi, le trafic de votre site est divisé en deux et chaque groupe est exposé à la même variante. A terme, vous pouvez alors identifier si les taux de conversion sont similaires et valider le bon fonctionnement de votre solution.
1 Pourquoi réaliser un test A/A ?
L'objectif d'un test A/A est de vérifier que sa solution d'A/B testing est correctement configurée et que les données collectées sont cohérentes.
En lançant un test A/A vous pouvez observer que les résultats obtenus par les deux variantes sont similaires avec un taux de conversion identique.
2 Comment interpréter les résultats d'un test A/A ?
Les résultats sont, dans la grande majorité des cas, très proches. Toutefois, il est possible d'obtenir des résultats de conversion relativement divergents avec un indice de confiance à 95 %, ce qui voudrait dire que le test déclare un vainqueur alors que l'objectif est d'obtenir un égalité parfaite.
Un tel résultat ne signifie pas forcément que votre solution d'A/B testing est mal paramétrée. Il est beaucoup plus probable que vous soyez en face d’un « faux positif », c’est-à-dire qu’un gain de conversion est annoncé alors qu’il n’existe pas. Mais alors quelle est la probabilité d’obtenir des faux positifs ?
Attention aux « faux positifs »
Avec un indice de confiance à 95 %, le pourcentage de chances d’avoir un faux positif est mécaniquement de 5 %. Mais ce chiffre peut être faussé si on regarde les résultats avant le terme du test. En effet, le seuil de confiance fixé pour un test vaut pour l’intégralité du test, sur l’ensemble des visiteurs qui vont être testés. Regarder cet indicateur avant le terme du test est une mauvaise pratique, contraire aux règles statistiques.
Illustrons ce propos par un exemple.
Considérons une étude statistique entre deux villes, visant à savoir quelle est la ville dont la population est la plus âgée. La méthode statistique consisterait à constituer deux échantillons représentatifs et suffisants (un par ville) puis de comparer leur âge moyen.
Dans le cas d’un test A/A, nous sélectionnons en réalité les deux groupes d’individus dans la même ville. La méthodologie statistique correcte consiste à fixer à l’avance l’indice de confiance que nous souhaitons atteindre (95 %), ce qui nous donne une taille d’échantillon à tester (mettons 10 000 personnes). Si l'on mène l’étude à son terme sur ce nombre suffisant d’habitants, aucune différence ne sera détectée.
En revanche, si l’on observe de manière répétée les résultats avant le terme de l’enquête, la possibilité d’observer un faux positif augmente. Avec 20 personnes dans chaque groupe, il existe une forte probabilité qu’un des deux groupes ait un âge moyen supérieur à l’autre groupe (alors qu’il s’agit de la même ville).
Vous obtiendrez alors un indice de confiance élevé pour ce test, car les échantillons sont trop petits. En effet, si l’on répète le même test avec de nouveau 20 personnes dans chaque groupe, il est très probable que l’on trouvera encore une différence d’âge. Si ensuite vous multipliez les observations (par exemple à 35, 50, 75 personnes, etc.), vous augmentez de fait la probabilité de tomber sur un faux positif.
Cet exemple démontre bien qu’il faut attendre d’avoir un échantillon suffisant avant d’avoir un résultat valable : le regarder trop tôt, c’est s’exposer à lire des résultats qui ne sont pas valides.
3 Qu'est-ce que les tests A/A/B ?
Un autre type de test semble gagner en popularité : le test A/A/B.
L'idée est ici d'effectuer un test A/B classique mais de le coupler avec une seconde variante A pour s’assurer de la validité du résultat communiqué sur la variante B. Si la variante A ne produit aucun gain ou perte de conversion, cela confirmerait que les résultats remontés sur la variante B sont bien fiables.
S’il est bien compréhensible de vouloir se rassurer, coupler un test A/B avec un test A/A n’augmente aucunement la validité du test A/B car les deux résultats sont complètement indépendants.
Statistiquement, le test A/A peut démontrer un faux positif dans 5% des cas (il indiquera - avec 95% de certitude - que la version A bat la version A, ce qui est évidemment faux). Pour autant, cela ne signifie aucunement que le test A/B présente lui-même un faux positif : si vous obtenez un gain de conversion avec 95 % de certitude, il y a effectivement 95% de chances que ce résultat soit un « vrai positif » même si le test A/A donne un résultat aberrant.
Autrement dit, si la pratique du test A/A/B est intellectuellement tentante, elle est malheureusement sans aucun intérêt statistique sur la validité du test A/B.
4 Pour résumer
La méthodologie même de l’A/B testing est statistique. Il ne faut pas oublier qu'elle n'est valable, dans l'absolu, qu'avec un échantillon infini.
Si des aberrations statistiques peuvent exister, ceci ne condamne aucunement la pratique du testing. Vous obtiendrez des résultats fiables, pourvu que votre test se déroule sur un trafic suffisant avec une durée suffisante.