Hvordan lykkes jeg med A/B-testing?

Andreas Almqvist Gref

Hvorfor er det noen som lykkes med A/B-testingsprogrammene sine, mens andre mislykkes? I dette blogginnlegget går vi gjennom 11 grunnleggende prinsipper for hvordan du lykkes med A/B-testing.

7 av 10 tester mislykkes

Hva mener jeg med mislykkes? Jo, når du kjører en A/B-test, så kan du få tre ulike resultater:

  • Seier
  • Tap
  • Ingen forandring

Når du jobber datadrevet og kontinuerlig tester forandringer, så kan du forvente at omtrent 7 av 10 eksperimenter gir det resultatet at forandringen gjorde det verre for brukeren – eller at den ikke utgjorde noen forskjell. Men det er ikke dårlig – det er akkurat det du ønsker å oppnå. Hvis noen kom til meg og sa at de kun mislyktes med 1 av 10 tester, så ville jeg sagt at de tester feil ting. Å lande et sted rundt 7/10 betyr at du tester ting som det faktisk finnes usikkerhet rundt effekten av. Dessuten er ikke en test dårlig kun fordi den ikke gir en positiv effekt – de eneste dårlige eksperimentene, er de du ikke lærer noe av.

Ikke se på konkurrentene – de vet heller ikke hva de driver med

Spøk til side, det å hele tiden se på hvordan konkurrentene dine har løst ulike problemer i sine digitale kanaler, rimer dårlig med en datadrevet arbeidsmåte. Du vet ikke om konkurrenten din har testet seg frem til løsningen de har, eller om de i det hele tatt har brukt data som beslutningsgrunnlag. Baserer du forbedringsforslagene dine på hva konkurrenten din gjør, så hindrer det deg også i å tenke nytt. Fokuser heller på hva brukerne dine vil ha!

Du tester ikke idéer – du tester hypoteser!

Hva mener jeg med det? Er ikke det det samme? Nei, i Conversionista tenker vi på denne måten: En idé er en løst formulert ambisjon eller retning med mange ulike varianter. En hypotese er en strukturert idé som forteller:

  • Hvor den kom fra
  • Hvordan den skal fungere
  • Hva det forventede resultatet er

Dette utgjør en stor forskjell for eksperimentene dine. En hypotese, slik vi definerer den, krever at det finnes data som støtter hypotesen. Den krever at det finnes en presis beskrivelse av hva som skal testes, og den krever at det finnes et tydelig mål som gjør det mulig å måle resultatet av testen. Vi pleier å bruke en hypoteseformel for å forsikre oss om at vi har fått til en god hypotese. Den kalles for IAR og er en forkortelse for Insight, Action, Result. Det er en klassisk «fyll inn hullene-setning» som hjelper deg med å sikre at du får en hypotese det er verdt å teste! Sjekk ut vår hypothesis creator.

Alt handler om å forstå brukerne dine!

Det det virkelig handler om, er å forstå brukerne dine. Gode hypoteser kommer av godt innsiktsarbeid som kombinerer kvantitative og kvalitative metoder for å bygge god forståelse for brukernes problemer og behov. Slutt å gjette, det gjorde man på 1900-tallet!

Test der hvor brukerne tar beslutninger

Det føles kanskje som en selvfølge. Selvsagt må jeg teste der hvor brukerne tar en beslutning. Eller vil du innvende at en bruker alltid tar en form for beslutning? Skal vi kunne påvirke brukeren, må vi vite hvilken informasjon han/hun trenger for å ta en beslutning. Når det skal tas en beslutning om for eksempel et kjøp – pass på at all informasjon som trengs for å ta beslutningen er tilgjengelig. Det jeg mener med å teste der hvor brukeren tar en beslutning, er å teste på steder hvor brukeren tar til seg informasjon og tar en avgjørelse basert på den.

Du har kanskje kjørt en A/B-test på siden med null resultat? Du er ikke alene. Det at du eksponerer mange mennesker for testen din, er ikke det samme som at du vil få høy grad av påvirkning. Brukeren må være klar for å ta til seg informasjon og til å ta en endelig beslutning. Det er betydelig vanskeligere å få til på startsiden enn lenger ned i trakten din. Hvor kan det være lurt å begynne å teste da? Jo, der hvor du har en stor drop-off, for eksempel.

Det at du eksponerer mange mennesker for testen din, er ikke det samme som at du vil få høy grad av påvirkning.

Du tester et gjennomsnitt

A/B-testing er en veldig god metode for å bestemme effekten av en bestemt forandring – selv når effekten er liten, men betydningsfull. En utfordring ved metoden er at vi alltid tester en forflyttning av et gjennomsnitt. Altså at resultatet vårt viser hva som fungerer for gjennomsnittet av alle brukere. En test kan ha en negativ innvirkning på én gruppe brukere, samtidig som den har en positiv effekt på en annen. Resultatet viser om de som ble påvirket positivt genererte flere konverteringer enn det vi mistet for de som ble påvirket negativt. Dette er både en svakhet og en styrke ved A/B-testmetoden. Det er også opphavet til en vanlig tankefelle rundt innsikt.

Når du gjør research og oppdager en interessant atferd, så må du alltid kvantifisere det du har funnet før du tar en avgjørelse om en forandring. Man kan godt finne flere motstridende påstander om brukerne når man for eksempel gjør brukstester. Det er ikke så rart – alle brukerne vil ikke det samme. Av den grunn må du alltid se på funnene dine som en base å gå ut ifra.

Funnet noe i en brukstest? Sjekk hvor stor andel det gjelder ved hjelp av et kvantitativt verktøy. Funnet en drop-off? Gjør en kvalitativ test for å finne ut hvorfor. Ikke la noen sannheter stå uimotsagt.

Og husk: Korrelasjon er ikke det samme som kausalitet, men korrelasjon er et utmerket utgangspunkt for en hypotese som du kan teste i et eksperiment.

Og husk: Korrelasjon er ikke det samme som kausalitet, men korrelasjon er et utmerket utgangspunkt for en hypotese som du kan teste i et eksperiment.

Test der hvor du får gjennomslagskraft

Nå når du har gjort alt annet riktig, ikke glem å sjekke hvor mange brukere du faktisk påvirker med eksperimentet ditt og hva du til sist kan forvente å få igjen for å teste nettopp der. Du kan gjerne komme frem til bra innsikt når du analyserer en flyt brukerne beveger seg gjennom. Men det er lite lønnsomt å teste flyten, om det er for få brukere å påvirke. Et stort løft på for eksempel 20% hjelper lite om du går fra 100 til 120 kjøp.

Her kommer også statistisk analyse inn i bildet. Et resultat er verken positivt eller negativt, om det ikke er statistisk signifikant. Som en tommelfingerregel trenger du et tusentalls brukere og et hundretalls konverteringer for å få et statistisk sikret resultat. Heldigvis sammenfaller det bra med de stedene hvor du kan få gjennomslagskraft. Dessuten er det større sannsynlighet for statistisk signifikante resultater når du har større effekt!

Superstor fremgang tyder ofte på feil

Det finnes en interessant lov som kalles for Twymans Law. Den høres slik ut: «Any figure that looks interesting of different is usually wrong». For A/B-testing innebærer det at når du finner noe veldig interessant, så må ditt første instinkt være å prøve å finne feilen. Vi gjorde et eksperiment som viste en dobling i add-to-cart. Når vi så nærmere på det, så viste det seg at eksperimentet hadde introdusert en feil hvor alle add-to-cart sendte doble event, men kun i eksperimentvarianten – ikke i originalen.

I et annet eksperiment jeg satte opp, flyttet vi prisen lenger ned i funnelen (trakten). Med andre ord, så viste vi prisene senere i kundereisen. Resultatet var en voldsom økning i click through-rate til checkout. Det virket veldig lovende, men det viste seg at sluttkonverteringen ikke ble påvirket statistisk signifikant. Det eneste vi lyktes med å gjøre, var å flytte punktet hvor brukeren tok avgjørelsen (når de fikk se prisen) til et senere punkt, uten å få dem til å konvertere i høyere grad.

Gå alltid ut ifra Minimum Viable Experiment!

Du trenger ikke å lage et ferdig produkt – test heller hva som ville ha skjedd om produktet fantes. En køknapp på et produkt som ikke finnes, kan føre brukeren til en beskjed som «gi meg beskjed når produktet finnes på lager» og en påfølgende innsamling av mailadresse.

Kompliserte eksperimenter fører gjerne til komplisert analyse. Prøv å holde det enkelt. Test en hypotese om gangen, og gjør bare endringen som trengs for å få testet hypotesen. Gjør heller en serie eksperimenter, bygg opp innsikt og bygg videre på resultater fra tidligere eksperimenter. Repeter, repeter, repeter!

Gjør heller en serie eksperimenter, bygg opp innsikt og bygg videre på resultater fra tidligere eksperimenter.

Din største fiende heter «confirmation bias»

Å være nysgjerrig, skeptisk og villig til å kontinuerlig endre sin oppfatning ligger i kjernen av datadrevet arbeid. Et av de største hindrene for å lykkes, er tendensen til å bekrefte det virkelighetsbildet man allerede har. Vi har alle gjort det, og det er helt naturlig. Det er umulig for oss å se på alt objektivt og med nye øyne. Forforståelse er en forutsetning for å kunne se større perspektiver, hvordan saker henger sammen og for å ta raske avgjørelser. Men det kan også føre til at du konkluderer feil og går glipp av noe nytt og interessant.

Grunnlaget for A/B-testing er en vitenskapelig tilnærming. Du bør prøve å motbevise hypotesen med alt du har. Mislykkes du med det, så kan du erklære en ny vinner. Helt konkret handler det om at du ikke skal sjekke mange ulike metrics for å finne en som støtter hypotesen din. Det er ikke bare på grunn av confirmation bias, det introduserer også et alvorlig statistisk problem som kalles «multiple comparisons problem».

Hvordan skal man gripe an dette her? Involver flere mennesker i eksperimentdesign og analyse, gjerne mennesker som pleier å tenke annerledes enn deg. Unngå å grave i data for å finne støtte for hypotesen din. Definer på forhånd hvordan analysen skal gjennomføres, hva som er et vellykket resultat og hvilke relaterte metrics som bør flyttes og hvorfor.

Bli spent når du finner noe som er uventet eller vanskelig å forklare. Det er nå du har muligheten til å lære noe nytt!

Bli spent når du finner noe som er uventet eller vanskelig å forklare. Det er nå du har muligheten til å lære noe nytt!

Tørr å ta sjanser, sats stort, det er bare et eksperiment!

Noen synes kanskje at vi skal unngå å ta risikoer, for tenk hva vi har å tape. Jeg vil gjerne snu på det argumentet. Hvis ikke vi tørr å eksperimentere, så er risikoen nesten total for at vi taper på uutnyttet potensial!

 

Se også disse blogginnleggene