Et godt triks for bedre eksperimenter

John Ekman

Sample Rate Mismatch (SRM) er et vanligt, men usynlig problem som påvirker mange A/B-tester. Men konsekvensene kan være alvorlige, ettersom det du tror er en testvinner faktisk er en taper. Men det finnes måter for å oppdage og håndtere SRM-problemer.

Conversion Jam Speaker
Lukas Vermeer – Director of Experimentation,  Booking.com

Gå ikke glipp av Lukas på Conversion Jam, hvor han vil vise enda flere eksempler på hvordan oppdage og håndtere SRM.

Skaff deg billett her!

Her er et intervju med Lukas Vermeer, gjort nå like før Conversion Jam. Intervjuer er John Ekman – grunnlegger av Conversionista.

[John] – Lukas Vermeer, velkommen som foredragsholder på årets Conversion Jam. Du kan jo begynne med en kortfattet presentasjon av deg selv.

[Lukas] – Så klart, jeg er Director of Experimentation på Booking.com. Jeg er ansvarlig for organisasjonen, metodene og all infrastrukturen som lar oss eksperimentere i stor skala. Målet mitt er å gjøre det mulig for alle som jobber med produktet vårt å enkelt kunne bruke eksperimenter som en del av prosessen med kontinuerlig forbedring, innovasjon og produktutvikling.

[John] – Kul jobb. Jeg snakket med deg før og vet litt om hvordan dere jobber. Når jeg foreleser, spør jeg ofte på spøk – Vet dere hvor mange eksperimenter Lukas hos booking.com gjør hvert år?…

[Pause] 

Svaret: Null!”

[Lukas] – Haha! Ja, det er nesten sant. Man kan i alle fall si at det ikke er mitt ansvar å gjøre eksperimenter, men heller å hjelpe andre med å gjøre så mange eksperimenter som mulig.

Alle som jobber med produktet vårt skal være i stand til enkelt å bruke eksperimenter som en del av prosessen med kontinuerlig forbedring, innovasjon og produktutvikling.

[John] – Ok, men la oss gå videre til presentasjonen din på årets Conversion Jam. Den skal handle om One Neat Trick to Run Better Experiments. Hva slags triks er det?

[Lukas] – Presentasjonen min handler om det som kalles “Sample Rate Mismatch” eller SRM. SRM er en vanlig feil i mange A/B-tester som gjør det umulig å stole på resultatet og man risikerer å trekke feil konklusjoner fra testresultatet.

SRM er et statistisk symptom på et teknisk problem.

[John] – Sample Rate” det høres ut som noe å gjøre med en statistisk feil, stemmer det?

[Lukas] – Vel, egentlig ikke. Det er heller slik at du har en teknisk feil som gjør at alle test-øktene ikke regnes ut på riktig måte. Og dette fører til at data og statistikk ikke er pålitelig. Man kan si at SRM er et statistisk symptom på et teknisk problem.

[John] – Vrient – kan du gi et eksempel?

[Lukas] – Si at vi kjører en test mot 20 000 besøkende og fordeler trafikken 50/50, det vil si 10 000 besøkende per testvariant. Si at konverteringsfrekvensen er 5 % for originalen, og 5,56 % for variasjonen, en økning på litt over 10 %. Det gir oss et statistiskt signifikant resultat – variasjonen er bedre enn originalen. Det ser ut som en vellykket test, ikke sant?

Men så oppdager vi at fordelningen i test-variantene ikke er 50/50, men 55/45. Dette betyr at noen steder i testen er ikke alle de besøkende medregnet. Det mangler besøkende i varianten. Det høres kanskje ikke så viktig ut, vi ser jo likevel et klart antall konverteringer og konverteringsfrekvensen for de forskjellige variantene?!

Men resonnementet er feil fordi det er basert på antagelsen av at de test-besøkende som droppet ut har samme konverteringsfrekvens som de som ble regnet med i testen. Ofte er det faktisk motsatt. De besøkende som droppet ut har blitt berørt av et problem som betyr at de ville ha hatt en høyere eller mye lavere konverteringsfrekvens hvis de hadde vært med i testen.

Gjør et tankeeksperiment – la oss si at vi “finner” de besøkende som droppet ut av testen. Det var 2 000 av dem, og de ville ha vært med i variasjonen. La oss si at de var “bounces”, det vil si besøkende som kom inn i eksperimentet, men som ikke gjorde noe (og derfor ikke ble sporet). Konverteringsfrekvensen deres hadde vært 0 % hvis besøkene deres hadde blitt sporet riktig. Og da ser plutselig resultatet vårt slik ut i stedet:

Nå er eksperimentet signifikant – men i den motsatte retningen! Variasjonen er VERRE enn originalen.

Conversionistas verktøy for å beregne 
statistisk signifikans finner du her>>

[John] – Det høres virkelig ikke bra ut at vi ikke kan stole på testresultatene våre. Du sier “vanlig forekomst – hvor vanlig er det egentlig?

[Lukas] – Det er veldig vanskelig å si, ettersom få av de kommersielle A/B-testverktøyene medregner eller rapporterer SRM. Microsoft og LinkedIn har fulgt opp SRM i testene sine, og kommet fram til at mellom 5-10 % av alle tester påvirkes. Dette er store selskaper som investerer mye i A/B-testning og har mye kompetanse innen feltet. Derfor er det lett å gjette at et gjennomsnittlig testprogram hos en gjennomsnittlig bedrift har minst like store problemer som Microsoft og LinkedIn, sannsynligvis enda større.

[John] – Hva avhenger SRM av?

[Lukas] – Oftest skyldes det tekniske problemer i testoppsettet. Et vanlig problem er at testen ikke lastes inn og spores ordentlig i alle nettleservarianter. En mer komplett liste over vanlige feil finner du her.

[John] – Ok, så dette er altså en vanlig feil som kan gi alvorlige konsekvenser. Men du er ikke med på Conversion Jam bare for å snakke om problemer – du har også løsninger, ikke sant?

[Lukas] – Det stemmer. Vi har et prosjekt og et verktøy som hjelper deg med å oppdage om du har SRM i testresultatene dine. Det er en Chrome-plugin som du kan laste ned her.

[John] – Perfekt! Det er nettopp dette vi ønsker at Conversion Jam skal handle om: konkrete tips og verktøy som forbedrer eksperimentene dine.

Til slutt en liten anekdote om hvordan vi møttes for første gang. Du var foredragsholder på CXL Live i Austin, og hadde snakket om viktigheten av å kunne formulere stringente hypoteser for eksperimenter. Etterpå gikk jeg opp til deg og la fram denne hypotesen:

Ettersom du, Lukas, er en utrolig kompetent og engasjerende foredragsholder innen vårt felt, skulle du kunne gi stor verdi ved å være foredragsholder på konferansen vår, Conversion Jam – noe jeg vil bevise ved å invitere deg som foredragsholder og observere speaker ratingen som de besøkende gir deg.”

Husker du det?

[Lukas] – Ja, det husker jeg godt. Da du kom opp til meg og begynte å snakke, føltes det litt nifst først, men så forsto jeg hva du drev på med!

[John] – Ja, og nå er vi her, et og et halvt år senere. Og jeg vil få bevist hypotesen min!

[Lukas] – Akkurat. Jeg tror også på hypotesen din, og om et par uker vil vi bevise det!

Se også disse blogginnleggene

Conversionista is open for business in The Netherlands.
Conversionista is open for business in The Netherlands. Read more.