Steve Jobs, ao responder a uma pergunta difícil em 1997, disse:

“Você tem que começar com a experiência do cliente e trabalhar de volta para a tecnologia comprar seguidores instagram. Você não pode começar com a tecnologia e tentar descobrir onde vendê-la. ”

Eu acredito que o teste A / B é baseado precisamente nesta ideia. A maioria das empresas inovadoras mudou de HiPPO (opinião da pessoa mais bem paga) para a tomada de decisão baseada em dados. Eles estão gastando muito em experimentos digitais para garantir a melhor experiência do cliente e a tomada de decisões organizacionais.

Falando sobre o investimento do Facebook na enorme estrutura de testes, em uma entrevista, Mark Zuckerberg disse:

“Em um determinado momento, não existe apenas uma versão do Facebook em execução no mundo. Provavelmente há 10.000 versões em execução. ”

Jeff Bezos também disse uma vez:

“Nosso sucesso na Amazon é uma função de quantos experimentos fazemos por ano, por mês, por semana, por dia.”
Mas, apesar do orçamento e do esforço adequados, alguns erros evitáveis ​​ocorrem durante a implementação. Este artigo aponta os 4 principais erros que comumente acontecem durante o teste A / B e passam despercebidos.

Incluirei o seguinte como parte da estrutura do artigo:

Vou elaborar sobre os erros com casos de negócios reais / casos hipotéticos para ajudá-lo a entender as ideias claramente.

Também vou sugerir soluções adequadas para eles.

Prometo torná-lo muito interessante e fácil de entender para você. Então, prepare uma xícara de café quente e pegue sua poltrona favorita.

Vamos começar.

1. Muitas variantes de teste
Ao testar uma hipótese para comparar 2 variações, você realiza um teste estatístico em um determinado intervalo de confiança. Suponha que sua organização decida um intervalo de confiança de 5% para um determinado experimento.

O que isto significa?

Isso significa que há 5% de chance de que os resultados do teste  ao comprar seguidores sejam aleatórios e que você encontre um vencedor errado.

por exemplo. Seu teste dirá que a opção B é melhor do que a opção A, 5 vezes em 100 quando esse não for o caso.
Em termos estatísticos, existe uma probabilidade de 5% de obter um falso positivo (erro tipo 1).

Isso foi fácil, certo? Vamos dar um passo adiante agora. Vamos estender esse conceito para mais de uma variante de teste.

A fórmula geral para a probabilidade de obter um falso positivo é a seguinte:

Taxa de falso positivo = 1- (1-α) ⁿ
α → nível de significância
n → número total de variantes de teste (excluindo o controle)
A equação atualmente se parece com isto:
1- (1–0,05) ¹ = 0,05
Agora, conforme o número de variantes de teste aumenta, o Erro Tipo 1 aumenta. O gráfico a seguir descreve essa variação claramente:

Isso é chamado de ‘Problema de comparação múltipla’.

Deixe-me desenvolver isso com um experimento famoso do Google, chamado ‘41 Shades of Blue Test ’.

Em 2009, o Google queria decidir o tom de azul que geraria o máximo de cliques em sua página de resultados de pesquisa. Então, eles realizaram “experimentos de 1%” para testar 41 tons diferentes de azul, mostrando 1% dos usuários um azul, outro experimento mostrando 1% de outro azul e assim por diante.

E foi assim que a cor azul que você vê nos links de publicidade no Gmail e na pesquisa do Google foi escolhida. Curiosamente, isso rendeu à empresa US $ 200 milhões extras por ano em receita.

Isso foi fascinante, certo? Agora, vamos voltar ao ‘Problema de comparação múltipla’. Como lidamos com isso? O que o Google teria feito?

CONSERTAR:

O número de variações que devem ser testadas depende dos requisitos de negócios de sua organização, eficiência organizacional e uma gama de fatores como conversões, receita, tráfego, etc. Ainda assim, testar muitas variações geralmente deve ser evitado.

Estatisticamente, existem várias técnicas para lidar com esse problema. Vou explicar uma técnica chamada “Correção de Bonferroni”.

Você já sabe que, com o aumento do número de hipóteses de teste, o erro Tipo 1 aumenta. Como a ‘Correção de Bonferroni’ ajuda nisso?

A ‘Correção de Bonferroni’ compensa este aumento no erro testando cada hipótese a um nível de significância de α / n.

por exemplo. se um experimento está testando 40 hipóteses, com o nível de significância desejado de 0,05, então ‘Correção de Bonferroni’ testaria cada hipótese em α = 0,05 / 40 = 0,00125.

Então, agora você sabe que, para manter um intervalo de confiança de 95% para o experimento “Teste de 41 tons de azul”, o Google teria testado cada hipótese com intervalo de confiança de 99,875%.

2. Ignorando efeitos de interação

É importante estar atento aos efeitos da interação quando vários experimentos têm como alvo o mesmo público. Mas qual é o efeito de interação?

É uma situação em que a influência simultânea de duas variáveis ​​na métrica de sucesso sob medição durante o experimento não é aditiva. Vamos entender isso por meio de um exemplo.

Suponha que a Amazon esteja trabalhando em sua comunicação ativa com o cliente para melhorar a taxa de conversão. A equipe de análise de comércio eletrônico está realizando um teste A / B em uma notificação push de “carrinho abandonado”. Ao mesmo tempo, a equipe de Análise de Marketing também está realizando um teste A / B em um “e-mail de recomendações” a ser enviado aos clientes.

As figuras a seguir mostram as taxas de conversão obtidas durante os testes:

Isso é estranho, certo? Ambos os novos recursos funcionam bem em seus respectivos experimentos, mas por que o tanque de teste combinado?

Isso se deve ao efeito de interação. A Amazon exagerou com seu programa de comunicação ativa com o cliente. O efeito combinado dos dois recursos que estavam indo muito bem individualmente é que incomodou os clientes. E, portanto, a taxa de conversão caiu.

CONSERTAR:

Há uma abordagem dupla que você pode adotar para se livrar do efeito negativo do efeito de interação na métrica de sucesso do experimento:

Em primeiro lugar, observe qualquer possível efeito de interação entre dois novos recursos lançados ao mesmo tempo. Se houver duas equipes envolvidas, alguém em sua organização que atue como um elo entre as duas equipes com bom conhecimento do trabalho de ambas pode ser um recurso útil.

Em segundo lugar, quando tal efeito de interação for identificado, não realize ambos os testes A / B simultaneamente. Em vez disso, teste-os sequencialmente.

3. Ignorando o valor do cliente

Às vezes, as organizações se concentram apenas no desempenho dos principais KPIs, como taxa de conversão ou receita por visita, e perdem a segmentação com base no valor do cliente. Isso pode levar a resultados de experimentos falhos. Vamos ver isso com um exemplo.

Suponha que o Walmart Grocery reformule sua página inicial, alterando a localização da “barra de pesquisa”. A equipe realiza uma experiência com duração de 2 semanas, mas descobre que a taxa de conversão e a receita por visita diminuíram. Portanto, conclui que o design antigo é melhor.

Tudo parece bem, certo? Mas é isso? Não.

A equipe não percebeu o importante fato de que clientes fiéis tendem a responder de maneira muito mais desfavorável do que os novos clientes. Os clientes fiéis levam mais tempo para se aquecer com o novo design. Vamos entender isso com um exemplo mais identificável.

Suponha que você vá fazer compras na loja física mais próxima do Walmart e descubra que eles reorganizaram completamente a loja inteira. Você encontra a seção de eletrônicos no local normal de mercearia, a seção de roupas no local habitual de itens essenciais para a casa e assim por diante. Se esta é sua primeira visita, você não saberia a diferença e compraria o que veio buscar. Mas se você for um comprador frequente lá, você ficará confuso e poderá até sair se estiver com pressa.

Eu acho que você entendeu. Acontece que um comportamento online semelhante é mais provável.

CONSERTAR:

Acho que você concordaria comigo agora que há uma relação inversa entre o valor do cliente e a resposta positiva a uma modificação no design da página, considerando que o valor do cliente não é apenas uma função da receita vitalícia, mas também uma função de recência e frequência.

Em outras palavras, o quartil superior (clientes com as pontuações mais altas em Recência, frequência e valores monetários) em um modelo RFM não terá uma resposta favorável ao novo design.

Deixe-me demonstrar rapidamente a segmentação do cliente por quartis RFM por meio de uma pequena amostra de dados de 4 clientes.

R (Tempo para retorno) → Dias desde a última conversão
F (frequência) → Número de dias com conversões
M (monetário) → Dinheiro total gasto
Imagem para postagem
Fig. 5 Segmentação de clientes usando modelo RFM
Portanto, é muito importante compreender o mix e a segmentação do cliente com base no valor do cliente. Segmente-os em novos e regulares. É ainda melhor se você formar segmentos com base em quartis RFM (segmentação RFM).

4. Segmentação Pós-Teste Incorreta

Após a conclusão do experimento, você começa a dissecar os dados em segmentos como tamanho do tráfego, clientes novos vs. leais, tipo de dispositivo, etc. Você deseja compará-los com base em suas métricas de sucesso para extrair insights úteis de negócios. Isso é chamado de segmentação pós-teste.

Mas, você precisa ser cauteloso aqui. Esteja ciente dos dois problemas a seguir:

Tamanho de amostra pequeno de segmentos: Os segmentos que você forma após o teste podem acabar tendo um tamanho muito pequeno. Portanto, os insights de negócios que você extrai ao comparar diferentes segmentos das variações testadas podem não ter significância estatística.

Problema de comparação múltipla: lembra disso? Sim você está certo. Nós cobrimos isso no primeiro ponto do artigo. Se você comparar muitos segmentos, a probabilidade de erro Tipo 1 aumenta.

CONSERTAR:
Então, como você lida com isso?

A melhor maneira de lidar com isso é optar por amostragem estratificada e criar testes direcionados. Divida as amostras em colchetes homogêneos de forma que a variabilidade dentro desses colchetes seja muito menor. Esses suportes ou segmentos de clientes podem ser baseados em atributos como categoria de dispositivo, fontes de tráfego, dados demográficos, etc. de acordo com as necessidades de negócios e orçamento. Em seguida, conduza o experimento para comparar os colchetes correspondentes das variações a serem testadas.

Para lhe dar um exemplo da indústria, a Netflix usa amostragem estratificada para manter a homogeneidade em um conjunto de métricas principais, de qual país e tipo de dispositivo (ou seja, smart TV, console de jogos, etc.) são os mais cruciais.

Conclusão

Embora existam muitos erros de teste A / B, meu esforço tem sido apontar os mais sofisticados que têm uma alta probabilidade de não serem detectados na indústria.

Espero ter cumprido minha promessa de tornar o artigo interessante e fácil de entender. E espero que você tenha achado útil.

Para terminar com o espírito de Thomas Alva Edison de comemorar os erros e o que aprendeu com eles,
“Não falhei 10.000 vezes. Eu encontrei com sucesso 10.000 maneiras que não funcionam. ”