Hur lyckas jag med A/B-testning?

Andreas Almqvist Gref

Varför lyckas vissa medan andra misslyckas med sina A/B-testningsprogram? I den här bloggposten går vi igenom 11 grundläggande principer för framgångsrik A/B-testning.

7 av 10 test misslyckas

Vad menar jag med misslyckas? Jo, när du kör ett A/B-test kan du få tre olika resultat:

  • Det kan vinna
  • Det kan förlora
  • Det kan visa på ingen förändring.

Så när du jobbar datadrivet och kontinuerligt testar förändringar kan du räkna med att ungefär sju av tio experiment ger resultatet att din förändring försämrade läget för användaren, eller helt enkelt inte gjorde någon skillnad. Men det är inte dåligt – det är precis vad du vill uppnå. Om någon kom till mig och sa att de bara misslyckas med ett av tio test skulle jag säga att de testar fel grejer. Att landa någonstans runt 7/10 betyder att du testar saker där det faktiskt råder osäkerhet kring effekten. Dessutom är ju inte ett test dåligt bara för att det inte gav en positiv effekt – de enda dåliga experimenten är de du inte lär dig något av!

Titta inte på konkurrenterna – de vet inte heller vad de pysslar med

Skämt åsido, att konstant snegla på hur konkurrenterna har löst olika problem i sina digitala kanaler rimmar illa med ett datadrivet arbetssätt. Du vet inte om konkurrenten har testat sig fram till den lösningen de har eller om de ens använt sig av data som beslutsunderlag. Att basera dina förbättringsförslag på vad konkurrenten gör riskerar också att hindra dig från att tänka nytt – fokusera istället på vad dina användare vill ha!

Du testar inte idéer – du testar hypoteser

Okej, vad menar jag med det, är inte det samma sak? Nej, så här tänker vi på Conversionista: en idé är en löst formulerad ambition eller riktning med många möjliga varianter. En hypotes är en strukturerad idé som berättar:

  • Var den kom ifrån
  • Hur den ska fungera
  • Vad det tänkta resultatet är

Det här gör stor skillnad för dina experiment. En hypotes såsom vi definierar den kräver att det finns data som stödjer hypotesen, den kräver att det finns en precis beskrivning om vad det är som ska testas och den kräver också att det finns ett tydligt mål som därmed gör det möjligt att mäta ett resultat av testet. Vi brukar använda oss av en hypotesformel för att försäkra oss om att vi fått till en bra hypotes. Den kallas för IAR och förkortingen står för Insight, Action, Result. Det är en klassisk “fyll i luckorna-mening” som hjälper dig att säkerställa att du har en hypotes värd att testa! Stick över till vår hypothesis creator.

Allt handlar om att förstå dina användare!

Vad det verkligen handlar om är att förstå dina användare. Bra hypoteser kommer från bra insiktsarbete som kombinerar kvantitativa och kvalitativa metoder för att bygga upp en bra förståelse för användarens problem och användarens behov. Sluta gissa, det gjorde man på 1900-talet!

Testa där användaren tar beslut

Det kanske känns självklart. Jag måste såklart testa där användaren tar ett beslut. Eller invänder du kanske att användaren väl alltid tar något beslut? För att påverka användaren måste vi veta vilken information som hen behöver för att kunna ta ett beslut. När ett beslut om exempelvis köp ska göras – se till att all information som behövs för att ta beslutet finns tillgänglig där. Så det jag menar med att testa där användaren tar beslut, är att testa på platser där användaren tar till sig information och tar ett beslut baserat på den.

Kanske har du kört ett A/B-test på din startsida med ett nollresultat? Du är inte ensam. Att du exponerar många personer för ditt test betyder inte att du kommer få hög påverkansgrad. Användaren måste vara redo att ta till sig information och redo att ta ett slutgiltigt beslut, det är betydligt svårare att få till på startsidan än längre ned i din funnel. Vad kan vara ett bra ställe att testa på då? Ja, där du har en stor drop-off till exempel.

Att du exponerar många personer för ditt test betyder inte att du kommer få hög påverkansgrad.

Du testar ett genomsnitt

A/B-testning är en riktigt bra metod för att definitivt utröna effekten av en viss förändring även när effekten är liten, men betydelsefull. Ett problem som metoden lider av är dock att vi alltid testar en förflyttning av ett genomsnitt. Alltså, vårt resultat visar vad som funkar för genomsnittet av alla användare. Ett test kan mycket väl ha negativ påverkan på en grupp användare, medan den har en positiv effekt på en annan grupp. Resultatet visar om de som påverkades positivt genererade fler konverteringar än tappet för de som påverkades negativt. Det här är både en styrka och en svaghet för A/B-testningsmetoden. Det är också upphovet till en vanlig tankefälla kring insikter.

När du gör research och hittar ett intressant beteende så måste du alltid kvantifiera det du hittat innan du tar ett beslut om en förändring. Man kan mycket väl hitta flera motstridiga påståenden om användarna när man till exempel gör användningstester. Det är inte konstigt – alla användare vill ju inte samma sak. Av den anledningen måste du alltid se på dina fynd som en bas att utgå ifrån.

Hittat något i användningstest? Kolla hur stor andel det gäller med ett kvantitativt verktyg. Hittat en drop-off? Gör ett kvalitativt test för att ta reda på varför. Låt inga sanningar stå oemotsagda.

Och kom ihåg: korrelation är inte lika med kausalitet, men att hitta en korrelation är en utmärkt grund för en hypotes som du kan testa i ett experiment.

Och kom ihåg: korrelation är inte lika med kausalitet, men att hitta en korrelation är en utmärkt grund för en hypotes som du kan testa i ett experiment.

Testa där du får genomslagskraft

Nu när du gjort allting annat rätt, glöm inte att kolla hur många användare du faktiskt påverkar med ditt experiment och i slutändan hur mycket du kan förvänta dig att få tillbaka av att testa just där. Du kan mycket väl komma fram till en riktigt bra insikt när du analyserar ett flöde som användare går igenom, men det är ändå lönlöst att testa i det flödet helt enkelt för att det är för få användare att påverka. En enorm uplift på exempelvis 20% hjälper föga om du går från 100 till 120 köp.

Här kommer också statistisk analys in i bilden. Ett resultat är varken negativt eller positivt om det inte är statistiskt signifikant. Som en tumregel behöver du tusentals användare och hundratals konverteringar för att få ett statistiskt säkerställt resultat. Som tur är sammanfaller detta ganska väl med de platser där du kan få genomslagskraft. Dessutom är det större sannolikhet för statistiskt signifikanta resultat när du har större effekt!

Superstor uplift beror oftast på fel

Det finns en intressant lag som kallas Twymans Law, vilken lyder: “Any figure that looks interesting or different is usually wrong”. Vad det innebär för A/B-testning är att när du hittar någonting riktigt intressant så ska din första instinkt vara att försöka hitta felet. Ett experiment som vi gjorde visade på en dubblering av add-to-cart. När vi tittade närmare visade det sig att experimentet hade introducerat ett fel där alla add-to-cart skickade dubbla event, men bara i experimentvariationen, inte i original.

I ett annat experiment som jag satte upp flyttade vi priset längre ned i funneln (tratten) – med andra ord visades priset senare i kundresan. Resultatet var att click-through-rate till checkout ökade dramatiskt. Det verkade mycket lovande, men det visade sig att slutkonverteringen inte påverkades statistiskt signifikant. Det enda vi lyckades göra var att flytta den punkt där användaren tog sitt beslut (när de fick se priset) till ett senare steg, utan att få dem att konvertera i högre grad.

Utgå alltid ifrån Minimum Viable Experiment!

Du behöver inte bygga en färdig produkt – testa istället vad som skulle hända om produkten fanns. En köpknapp på en produkt som inte finns än kan till exempel leda användaren till ett meddelande som “berätta för mig när produkten finns i lager” och efterföljande insamling av e-post.

Komplicerade experiment riskerar också att leda till komplicerad analys. Försök att hålla det enkelt, testa en hypotes i taget, och ändra bara så mycket som behövs för att testa hypotesen. Gör hellre en serie experiment, bygg upp insikter och bygg vidare på resultat av tidigare experiment. Iterera, iterera, iterera!

Gör hellre en serie experiment, bygg upp insikter och bygg vidare på resultat av tidigare experiment.

Din största fiende heter “confirmation bias”

Att vara nyfiken, skeptisk och villig att konstant ändra sin uppfattning ligger i kärnan av datadrivet arbete. Ett av de största hindren för att lyckas med det, är tendensen att bekräfta den bild av verkligheten du redan har. Vi är alla drabbade och det är högst naturligt. Vi kan omöjligen titta på allting vi ser objektivt och med nya ögon. Förförståelse är en förutsättning för att kunna se större perspektiv, hur saker hänger samman och för att ta snabba beslut. Men det riskerar också att leda till att du drar fel slutsats eller helt enkelt missar något nytt och intressant.

Grunden för A/B-testning är ett vetenskapligt förhållningssätt. Du ska försöka motbevisa din hypotes med allt du har. Misslyckas du med det så kan du deklarera en ny vinnare. Konkret innebär det till exempel att du aldrig ska kolla mot många olika metrics för att hitta en som stödjer din hypotes. Det är inte bara på grund av confirmation bias, det introducerar också ett allvarligt statistiskt problem kallat “multiple comparisons problem”.

Hur ska man då komma åt det här? Involvera flera personer i experimentdesign och analys, gärna personer som du brukar tycka annorlunda än. Var ödmjuk inför din egen okunskap. Undvik att gräva i data för att hitta stöd för din hypotes. Definiera på förhand hur analysen ska genomföras, vad som är ett lyckat resultat och vilka relaterade metrics som borde förflyttas och hur.

Så, bli exalterad när du hittar något som är oväntat eller svårt att förklara. Nu har du chansen att lära dig något nytt!

Så, bli exalterad när du hittar något som är oväntat eller svårt att förklara. Nu har du chansen att lära dig något nytt!

Våga ta risker, kör på stort, det är bara ett experiment!

Någon kanske tycker att vi inte ska ta risker, tänk vad vi kan förlora. Jag skulle vilja vända på det argumentet. Om vi inte vågar experimentera är risken närmast total att vi går miste om en outnyttjad potential!

Läs även

Vad är röstsök?

Vad är röstsök?

Av Carolyn Lööw 25 februari, 2019