De 21 vanligste kundespørsmål om A/B-testing du ikke vil gå glipp av

Anders Nordling-Danils & Sofia Staaf

Som konverteringspesialister får vi masse spørsmål fra våre kunder når det gjelder A/B-testing. Det synes vi er gøy da A/B-testing er en av de mest effektive metodene for å drive langsiktig vekst i din bedrift eller organisasjon.

I dette blogginnlegget finner du de vanligste spørsmålene vi får fra våre kunder om A/B-testing – og svarene på dem.

Dette vil du lære deg:

✅ Hvordan A/B-tester hjelper deg med å skape langsiktig vekst
✅ Hvordan du hånterer de vanligste A/B-testutfordringene
✅ Feilene du vil unngå

1. Må jeg A/B-teste?

Klart du må! Hvordan skal du ellers vite om du tjener eller mister inntekt? Eller hva som er viktigst for dine kunder? Harvard Business Review uttrykker det slik, og vi er enige.

Kontrollerte eksperiment kan forvandle beslutstagning til en vitenskaplig, evidensdrevet prosess – heller enn en intuitiv reaksjon

Om du implementerer flere endringer på din nettside uten å teste dem først kan det ende opp i null eller til og med negativ effekt på dine KPIer. Og du vil dessuten ikke kunne vite Hvilke endringer som skapte positive resultat og hvilke som skapte negative, da det er umulig å se årsakssammenhenger mellom de innsatser du gjør og dets effekt. Grogrunn for en ordentlig hodepine med andre ord.

A/B-testing er en utmerket metode for å validere effekten av en forandring du vil gjøre. Eksperiment gir deg mulighet til å prioritere de investeringer som gir størst påvirkning på dine mål.

Fortsatt skeptisk? Sjekk spørsmål 11 – der har du et skikkelig tungt argument.

2. Hvor mye trafikk behøver jeg?

Antallet konverteringer er avgjørende. En konvertering kan for eksempel være en ordre i en e-handel eller ett lead til salg. Men en bra tommelregel er et par hundre konverteringer per variant (variant = siden som inneholder den endringen du vil teste). I spørsmål 12 får du svar på hvorfor du skal utgå fra konverteringer og ikke en annen KPI (f. eks besøk eller CTR) når du beregner størrelsen på ditt utvalg.

Måter å kontrollere om du kan A/B-teste

Før du setter i gang ditt eksperiment beregner du hvor stort utvalg du behøver for hver variasjon – altså antallet besøkere du behøver for at testresultatene skal nå statistisk signifikans. Bruk gjerne en A/B-testkalkulator for å beregne det minste utvalget du behøver. Når eksperimentet er i gang er det viktig at du lar testen fortsette til du oppnår utvalgsstørrelsen, selv om «du ser signifikans» før dette.

Det finnes en rekke kalkulatorer der ute. Her er 2 som vi liker:

A/B test utvalgskalkulator fra Optimizely

3. Hvor lenge skal jeg kjøre min A/B-test?

Det kjipe svaret er – det kommer an på. De viktigste faktorene er:

👥 Trafikkvolum
🎯 Mål
📅 Salgsperiode

Generellt er vår anbefaling at du kjører ditt eksperiment minst 2 uker men max 6 uker. Kortere enn 2 uker kan føre til at du ikke når minste nødvendige utvalgsstørrelse eller at du stopper testen midt i din salgssyklus. Det kan lede til at testresultatene blir misvisende og at du fatter beslutninger basert på feil data.

Å kjøre eksperiment over lengre perioder enn 6 uker er ikke heller å rekommendere da det øker risken for «dataforurensing». Det innebærer at eksterne og interne faktorer kan påvirke dine eksperimentdata og skape misvisende resultat. Eksempel på dataforurensing er egne og konkurrenters kampanjer, helger og fjerning av cookies. Resultatet vil bli det samme som når du stopper dine eksperiment for tidlig. Din data blir misvisende og du vil dra feil konklusjoner.

Her er tre retningslinjer å følge når det gjelder testlengde:

  1. Kjør testen til du har nådd ditt minste nødvendige utvalg for å få et statistisk signifikant resultat.
  2. Kjør testen i hele uker. Hvis du starter testen på en tirsdag, så avslutt testen på en tirsdag for å utelukke resultat som påvirkes av regelmessig variasjon.
  3. Kjør testen over en hel salgsperiode. Dine kunder handler kanskje ikke så fort de kommer in på ditt nettsted. Kanskje besøker de ditt nettsted flere ganger før de gjør et kjøp. Så se til at du kjører testen over minst en hel salgsperiode.

4. Hvorfor stopper vi ikke A/B-testen etter tre dager hvis vi ser at det er en taper?

Resultatet du ser er ikke en representasjon av virkeligheten. Det er fake news! Algoritmen i A/B-testverktøyet behøver mer data for å kunne gjøre en korrekt beregning.

Så hvis du avslutter ditt eksperiment for tidlig så har du ikke oppfylt det nødvendige trafikkvolumet og du har ikke oppnådd det minste antallet nødvendige konverteringer. Du har altså ikke et statistisk sikkert eksperiment. Som nevnt tidligere er anbefalingen å kjøre ditt eksperiment i minst 2 uker og dessuten hele uker. Tidlig i et eksperiment kan du tilfeldigvis få flere personer som er villige til å kjøpe i den ene gruppen enn i den andre. Med små utvalg er det mye mer sannsynlig at du ser et tilfeldig resultat som ikke gjenspeiler virkeligheten. Å agere på pålitlige resultat i stedet for tilfeldige resultat er hele poenget med å gjøre eksperiment! Så stopp ikke testen så snart du ser signifikans – det finnes flere variabler som må være nådd.

Kjør også testen en hel salgsperiode selv om du har nådd det minst nødvendige utvalget. Ellers risikerer du at du får et bekvemmelighets-utvalg snarere enn et representativt utvalg.

5. Hva er statistisk signifikans og statistisk styrke?

ENDELIG! Jag trodde aldri du skulle spørre. Dette er viktig, så konsentrer deg og fortsett lesingen. Det vil hjelpe deg å forstå en av de mest sentrale delene av A/B-testing.

Statistisk signifikans
Forklarer hvor stor sannsynligheten er for at den forandring du observerer ikke forårsakes av tilfeldigheter

Statistisk signifikans handler om å forstå tilfeldighetenes påvirkning på ditt resultat. Hvis du for eksempel har valgt 95% konfidensgrad og du har fått en vinner i ditt eksperiment så betyr det at du kan være 95% sikker på at ditt resultat ikke ble forårsaket av tilfeldigheter, men at det faktisk er forskjell på de to variantene du har testet. Ved 5% av tilfellene vil dog tilfeldighet avgjøre hvilken vinner det blir. Du har da fått en falsk positiv.

Hvorfor er det viktig å forstå statistisk signifikans?

Rent konkret betyr det at ved 5 anledninger (hvis du gjør 100 A/B-tester der det ikke finnes en vinner) så vil du ta beslutning på feilaktig data. Men, ennå viktigere, betyr det også at du ved 95 anledninger vil ta beslutninger på korrekt data. Dette er en avgjørende innsikt for deg som vil jobbe datadrevet. Hånden på hjertet, hvor mange av dine forretningsavgjørelser tas på et beslutningsgrunnlag der du med 95% sannsynlighet kan si at underlaget speiler virkeligheten? Vår oppfatning er at det er i veldig få tilfeller. En forutsetning for å kunne jobbe med en konfidensgrad på 95% i dine forretningsbeslutninger er dog at dere gjør mange eksperiment. Vi vil dog ikke gå inn på hvorfor i denne artikkelen, men det har med sannsynlighetslære å gjøre. Kontakt oss om du vil grave deg ned i detaljene 🤓

Hvorfor skal vi ha et konfidensnivå på 95%?

Vi synes det er en bra balanse mellom å kunne oppdage vinneren og å ikke erklære for mange tilfeldige positive resultat som vinnere. Det er også en vanlig konfidensgrad hos A/B-testteam. Så vi tror det burde fungere for deg 🙂

Ok, puh, bra jobbet. Halve spørsmålet avklart. La oss gå videre til statistisk styrke. Konsentrer deg igjen (og ikke stopp å lese)!

Statistisk styrke
Forklarer hvor stor sannsynligheten er for at du oppdager en forandring når det finnes en.

Statistisk styrke handler om hvor stor mulighet du har å oppdage vinnende resultater. Om du for eksempel har valgt en statistisk styrke på 80% og ditt eksperiment ikke har fått en vinner (testen er resultatløst) kan du være 80% sikker på at det ikke finnes noen vinner. Ved 20% av tilfellene vil det dog finnes en vinner som du ikke oppdager. Du har da fått en falsk negativ.

Økt statistisk signifikans leder til forminsket statistisk styrke.

Hvorfor er det viktig å forstå statistisk styrke?

Primært av to grunner. For det første for at du skal forstå hvor stor sannsynlighet det er for at du misser en vinner når eksperimentet ditt er resultatløst. Igjen, at du tar beslutninger på feilaktige data. Hvis du for eksempel bruker 80% styrke og kjører samme eksperiment fem ganger, vil det fire ganger (alltså 80% av gangene) vises som vinnere og én gang (20% av gangene) å vises som resultatløst (ikke en vinner).

For det andre behøver du å forstå at statistisk styrke er direkte sammenkoblet med statistisk signifikans. Økt statistisk signifikans leder til forminsket statistisk styrke. Så hvis du vil minske risken for falske positive resultat (at ditt eksperiment vinner pga tilfeldigheter) og øker din statistiske signifikans fra 95% til 99% vil din statistiske styrke per automatikk synke og risikoen for falske negative (at du ikke oppdager vinnere) vil øke. Og vice versa. Øker du statistisk styrke fra 80% til 90% vil din statistiske signifikans per automatikk minke, hvilket øker risken for falske positive resultat.

Hvis du bare skal huske en sak fra dette:

Styrke og signifikans er en balanseøvelse – 💃🕺

Som utgangspunkt bruk alltid 95% statistisk signifikans og 80% statistisk styrka i ditt eksperimentprogram. Det vil gi deg en bra balanse mellom å unngå falske positive og falske negative resultat, samt holde lengden på dine eksperiment under kontroll.

Der har du det! Forhåpningsvis forstår du nå litt mer om to sentrale mekanismer innen A/B-testing. Dette vil øke din eksperimentkvalitet radikalt!

6. Det er en vinner på mobil men taper på desktop. Hva skal vi gjøre?

Du har 2 valg:

👉Gjør kun endringen på mobil
👉 Gjør endringer på alle enheter

Hvis det er mulig så bare gjør endringen på mobil. Brukeradferden kan være annerledes på mobil og desktop. Hvis det ikke er mulig å gjøre endringen kun på mobil må du gjøre et kompromiss (ja – igjen!). Beregn risikoen og fordelene basert på trafikk per enhet og der de fleste konverteringer skjer – og fatt en beslutning. For å kunne gjøre et bra kompromiss er det viktig at du har en tydelig oppfatning av dine mål. Hvis du gjør det kommer kompromisset ikke til å være så vanskelig å gjøre. Hvis det er vanskelig er det en indikasjon på at du behøver klargjøre og/eller prioritere dine mål.

7. Det er en vinner på visse markeder men en taper på andre. Hva skal vi gjøre?

Denne er litt komplisert av mange grunner. Det korte og «mer rett enn feil»- svaret er: Hvis det finnes en liten forskjell skyldes det antaglig bare tilfeldigheter (se spørsmålet over om statistisk signifikans). Da kan du gå videre og implementere det for alle markeder. Hvis det finnes en stor forskjell på ett av markedene er dine alternativ enten 1) å utforske ytterligere eller 2) ganske enkelt beholde originalen på det markedet.

Men jeg kan ikke beholde originalversjonen for bare ett marked! 🤦

Hvis dette er tilfellet må du kompromisse på ny. Husk hva vi sa om mål og implementer det som er best i gjennomsnitt for alle markeder.

8. Kan vi kjøre disse to A/B-testene samtidig eller burde vi vente på at det første skal avsluttes?

Som med mange andre bra spørsmål kommer det an på 🙂 For de fleste er det viktigste å kjøre flere eksperiment. Så kjør de to eksperimentene samtidig.

For de fleste selskap er det viktigste å kjøre mange eksperiment

Det finnes dog et stort MEN. Hvis testen berører samme KPI og er på samme seksjon av nettsiden så er det i de fleste tilfellene bedre å vente med å kjøre test nummer to. Hvis du har tilstrekkelig mye trafikk kan du kjøre dem samtidig og dele opp trafikken mellom eksperimentene. Besøker 1 ser da bare test 1 og ikke test 2 og vice versa. Du vil da minimere risikoen for unaturlig brukeradferd da brukeren kun eksponeres for ett eksperiment, noe som vil øke dine sjanser for å dra korrekte slutninger.

9. Hvilket A/B-testverkøy anbefaler dere?

Et viktig spørsmål men umulig å besvare uten å vite mye mer om ditt selskap. For eksempel – hvordan ser din nåværende tekniske plattform ut, hvor mye trafikk har du, hva er ditt budsjett, hvor mange A/B-tester utfører du idag og hvor mange planlegger du å utføre i framtiden? Det finnes mange verktøy å velge mellom, så se til at du gjør hjemmeleksen før du tar en avgjørelse.

Interne prosesser og medarbeidernes kompetansenivå påvirker resultatet like mye (om ikke mer) enn verktøyet du velger.

Og ikke glem å stille deg (det kanskje viktigste) spørsmålet: Hvordan skal vi jobbe med A/B-tester innen vår bedrift eller organisasjon fremover? Interne prosesser og medarbeidernes kompetanse påvirker resultatet av ditt A/B-testprogram like mye (om ikke mer) enn det verktøyet du velger.

10. Hvilke KPIer skal jeg måle mot?

Du vil alltid optimere mot den KPIen som ligger nærmest dine forretningsmål. Ofte er det konverteringer. Dessuten vil du også måle en KPI som direkte påvirkes av ditt eksperiment, for eksempel brukere som fortsetter til neste steg i salgstrakten eller endringer i salg for andre produkter. Det er viktig at du analyserer flere KPIer når du gjennomfører dine eksperiment så du får forståelse for hvordan dine eksperiment påvirker dine forretningsmål.

11. Kan vi ikke bare lansere uten å A/B-teste og måle i etterkant?

Ikke om du vil være sikker på effekten. Korrelasjon er ikke kausalitet. Statistikk på ditt nettsted vil variere mye over tid (kan bero på sesong, kampanjer osv). Så om du ser en stor effekt kan det faktisk bare bero på normal variasjon og ikke på grunn av de forandringer du har gjort.
Så hvis du vil være sikker på at forandringen du gjorde er årsaken til effekten må du gjøre et eksperiment.

«Korrelasjon er ikke kausalitet» 👩‍🔬
Her er noen eksempel på når korrelasjon ikke har noenting med kausalitet å gjøre.

Hvorfor er det ikke nok å stole på korrelasjon?

Ettersom to variabler kan ha en sterk korrelasjon uten å ha noe å gjøre med hverandre (som eksemplene i lenken demonstrerte). Hvis du ikke forstår forskjellen mellom korrelasjon og kausalitet vil det skape problem når du drar sluttsatser fra din analyse. Så stol ikke på at korrelasjon gir deg et korrekt bilde av virkeligheten. Det vil kausale forhold gjøre.

12. Jeg vil forbedre CTR – hvorfor skal jeg måle konverteringer?

Selger du CTRer? Antaglig ikke. Du vil optimere den KPIen som er sterkest koblet til ditt forretningsmål, i dette tilfellet konverteringer, og holde styr på relaterte måletall – CTR i dette tilfellet.

Mer trafikk betyr per automatikk ikke flere kunder eller økt salg. Hvis du driver inn mer trafikk til ditt nettsted og din konverteringsfrekvens er uforandret eller synker, vil din kostnad per salg øke (alt annet er likt). Og i de fleste selskaper er det en dårlig sak.

13. Jeg vil teste vår kampanje – hvordan tester vi den?

Bra tenkt! En bra start er å bestemme:

👉 Hva det er i annonsen du vil teste
👉 Hvor i kundereisen du vil utføre testen

For eksempel kan du teste to ulike overskrifter eller tilbud (ikke samtidig!) og se hvordan det påvirker din konverteringsfrekvens. Kontroller bare at kampanjen ruller lenge nok slik at du får nok trafikk. Bruk en A/B-test kalkulator for å sikre at du får inn nok trafikk.

Når det gjelder hvor i kundereisen du vil utføre A/B-testen så fokuser på steget der din målgruppe tar beslutninger som har den største effekten på ditt kampanjemål. Det kan være på annonser eller på landingssider på ditt nettsted. Og gjør bare en test om gangen så du har styr på hva som forårsaket forandringen.

14. Hvor mange A/B-tester skal jeg kjøre?

Så mange du kan! Høy frekvens er avgjørende for å lykkes med A/B-testing. Et kritisk punkt er hvorvidt kostnaden overstiger avkastningen. Men tester du riktige ting vil ditt eksperimentprogram være veldig lønnsomt. Fokuser på å gjennomføre eksperiment kontinuerlig der dine besøkere tar beslutninger som påvirker dine mål mest.

Høy frekvens er avgjørende for å lykkes med A/B-testing.

15. Jeg har tre ulike forandringer jeg vil gjøre – kan jeg teste alle i ett eksperiment?

Ja og nei 🙃 Hvis de tre forandringene forventes å påvirke brukerens adferd på samme måte kan du teste alle i samme eksperiment. Ellers tester du en sak av gangen for å være sikker på hva som forårsaket forandringen. Å teste en forandring av gangen kan gi deg bedre innsikt om effekten av hver forandring.

16. Når skal jeg kjøre en A/B/C-test?

Når du har MYE trafikk! Fordelen med å gjøre en A/B/C-test er at du får teste flere variasjoner på en gang, men A/B/C-test krever mye mer trafikk enn en A/B-test for å nå et statistiskt signifikant resultat. Det tar dessuten mer tid. Beregn om du har tilstrekkelig med trafikk for å gjøre en A/B/C-test.

Dessuten –  A/B/C-tester risikerer å lede til en komplisert analyse. Forsøk å holde det enkelt – test en hypotese av gangen og endre bare så mye som behøves for å teste hypotesen. Gjør heller en serie eksperiment, skap innsikter og gjennomfør nye eksperiment basert på innsiktene fra dine tidigere eksperiment. I de fleste tilfeller vil du over tid nå dine mål raskere ved å kjøre «vanlige» A/B-tester.

17. Mennesker og deres adferd forandres. Hvordan sikrer jeg at de forandringer jeg implementerer fortsetter å være aktuelle over tid?

Du må kontinuerlig validere din kundeinnsikt for å holde dem oppdatert da den virkelige kundereisen er i stadig forandring. Hvis du har mange returnerende brukere kan det være bra å ha en kontrollgruppe som benchmark, eller gjøre en nytt test senere. Men i de fleste tilfeller er det viktigste å holde en høy frekvens av eksperiment over tid.

18. Kan jeg A/B-teste noe annet enn nettsiden?

Det er opp til deg og din fantasi! Du kan kjøre dem hvor du vil så lenge du kan måle dem og dele opp målgruppen i tilfeldige utvalg bestående av en kontrollgruppe og en variant. Så du kan teste på apper, i e-poster, bannere, sosiale medier … kaffemaskiner 🙂 Start med en vel definert hypotese basert på data, og deretter er det bare å kjøre!

19. Bør vi starte med en lavere prosent av trafikken rettet mot varianten?

Det anbefales virkelig ikke 🙅‍♂️ Du behøver ha like mange brukere i begge utvalgene for å få en godtagbar sammenligning. Ulike store utvalg kan lede til ulike sammensetninger av brukere hvilket vil lede til misvisende resultat.

20. Hva skal vi skal gjøre om en A/B-test er insignifikant? Hvilke faktorer ser vi på?

Hvis du kjører en test med mål om å øke konverteringen og resultatet er insignifikant, dokumenter resultatet (du lærer mye av dem også!) men implementer ikke. Om målet er å validere at en viss forandring ikke skader konverteringen, kan en insignifikant test implementeres.

Eksempel: Er det sikkert å begynne å selge planter?

Hvis du har en e-handel som selger møbler og du vil begynne å selge planter, vil det påvirke møbelsalget negativt? I steden for å lansere det for alle kunder på en gang kan du gjøre en A/B-test (en valideringstest) der testens variant promoterer planter. Hvis ditt møbelsalg ikke er lavere i varianten enn i kontrollen bør det være safe å begynne å selge planter.

21. Hvordan vet vi hva vi skal A/B teste først og/eller prioritere?

Gjør en av våre favorittøvelser – prioriter! Bestem hvilke eksperiment som har det høyeste potensialet for minst mulig innsats og begynn med dem.

Men først…
…må du forstå «hvorfor» du gjør eksperimentet – hvordan vil resultatet påvirke ditt selskap? Vil det øke antallet leads, inntekter eller et annet viktig mål? Når ditt forretningsmål er satt, kvantifiserer du det og definerer hvilket resultat du forventer deg fra eksperimentet (ditt eksperimentmål). Det siste steget er å ta en vurdering på hvor vanskelig testen vil være å gjennomføre (og kanskje også hvor vanskelig forandringen blir å implementere hvis du får en vinner). Gjør dette for alle dine eksperimentkandidater og du vil få en god forståelse for hvilke tester som vil skape høyest verdi for ditt selskap.

For å begynne å prioritere – test PIE-modellen

I virkeligheten er det ofte vanskeligere enn i teorien? Prøv PIE-modellen! Det er et verktøy som gir deg og ditt team et rammeverk for å diskutere og bestemme hvordan ulike eksperiment vil påvirke forretningsmålene.

Avslutningsvis

Forhåpentligvis har du fått svar på noen av dine spørsmål angående A/B-testing og hvordan du skal ta ditt eksperimentprogram fremover!

Vet du ikke hvor du skal begynne?
Ring, send en e-post eller fyll i et kort skjemal, så kommer vi tilbake til deg! 😊

Happy testing!

Se også disse blogginnleggene

Conversionista is open for business in The Netherlands.
Conversionista is open for business in The Netherlands. Read more.