Stemme – den tredje digitale revolusjonen (del 1)

John Ekman

Det absolutt mest hypede og brennhete akkurat nå, må vel være nettopp AI? Hvis det er noe som utgjør en ny digital revolusjon, så er det vel fortsatt AI? Les videre, så vil du kanskje – i likhet med meg – komme frem til at AI har fått for mye oppmerksomhet – mens stemmegrensesnitt har fått for lite.

For å forstå utgangspunktet for mitt resonnement, må vi gå litt tilbake i tid. La oss dra tilbake til 70-tallet.

Internett blir født

Grunnlaget for det internett vi kjenner i dag ble lagt på 1970-tallet, da Arpanet og TCP/IP-protokollen ble lansert. Og dere som husker hvordan det var: Folk var spinnville! De løp rundt som gale og kunne ikke få nok av Arpanet. Folk stod ute på gaten og ropte: – «Hvor er TCP/IP-en min?!», og inne i elektronikkforretningene var det slåsskamp om utstyret.

Enda verre ble det på 80-tallet, da World Wide Web ble lansert. Jeg husker jeg bodde i Boden på den tiden, og at jeg ringte til min mor. Hun svarte: – «Herregud! Sa du World Wide Web? Også jeg som står her med elggryten – hvor er du? Jeg avslutter og kommer med én gang!» Eller, var det kanskje ikke det som skjedde?

Det skjedde egentlig ingenting.

John på 80-tallet. Lykkelig uvitende om Internett

og noen form for digital revolusjon.

Men så, i 1993, kom Mosaic – som senere ble Netscape – og for første gang fikk vi et grensesnitt til den underliggende teknologien. Internett hadde ligget på lur i 20 år, helt frem til det ble vekket til liv av et praktisk grensesnitt. Med det fikk vi den første digitale revolusjonen.

«Internett lå og slumret i 20 år, frem til Mosaic fikk liv i det og dro i gang den første digitale revolusjonen.»

Deretter kom den mobile revolusjonen, i år 2000. Historien er den samme: Folk klatret over hverandre i butikkene, og til slutt måtte politiet hentes inn. – «Jeg er nødt til å få tak i en mobil. Hvor er den? Kom med den – jeg så den først!»

Eller. Egentlig ikke.

Men så, i 2007, kom den aller første iPhonen. For første gang fikk vi et fornuftig grensesnitt til den nye mobile teknologien, og så skjedde den andre digitale revolusjonen: Den mobile revolusjonen.

«Det er når vi får fornuftige grensesnitt til teknologien at revolusjonen skjer ute hos forbrukerne.» 

Du har vel skjønt hvordan det foregår nå? Poenget mitt er at teknologien i seg selv ikke skaper noen revolusjon. Det er når vi får fornuftige grensesnitt til teknologien at revolusjonen skjer ute hos forbrukerne. Og nå ser vi den tredje digitale revolusjonen, når våre grensesnitt til teknologien er i endring for tredje gang.

iPhone – den mest innovative saken noensinne?

Zoomer vi inn litt på iPhonen, så er det mange som anser den som det kreative høydepunktet i karrieren til Steve Jobs. En fantastisk oppfinnelse alle plutselig må ha tak i.

Ser man litt nærmere på hva iPhonen består av, så innser man at selve greia – eller innpakningen på den – bare var en liten del av det.

Det som var genialt med iPhone, var at Apple lykkes med å slå sammen mange teknologier og løsninger på et bestemt tidspunkt i historien.

Det handlet så klart om designet på telefonen og grensesnittet. Men det handlet også om avtalen med AT&T som garanterte båndbredde – og om at man hadde tilstrekkelig prosessorkapasitet til å kjøre den avanserte grafikken. At man hadde en touch-skjerm som for første gang fungerte godt nok, og at man la til en app store som skapte et økosystem rundt innholdet. Sist, men kanskje ikke minst: Man la inn iPod, iTunes og all musikken, noe brukerne allerede var kjent med og vant til å se i Apple sine produkter.

Egentlig var det ikke så mye innovasjon. Det var heller en syntese av en haug med løsninger som allerede fantes.

Jeg tar opp dette nå, fordi jeg tror det er nøyaktig det samme som er i ferd med å skje med stemmegrensesnittet.

Hva er så stemmegrensesnitt?

Vi tenker ofte på home speakers, kanskje spesielt nå som Google home har skutt fart.

Når man prater om markedet for stemmetjenester, så blir ofte det at Amazon og Alexa har to tredjedeler av markedet i USA trukket frem.

Men det er markedet for intelligente home speakers. Det er ikke det samme som markedet for alle stemme-applikasjoner, og jeg tror det er viktig å skille mellom de to.

Hjemmehøytalere er bare én av de ulike devicene hvor vi kommer til å se stemmegrensesnitt.

Et stemmegrensesnitt krever i prinsippet en liten mikrofon, en chip som kan prosessere det innkommende signalet, og en internettforbindelse som kan sende signalet til en AI/stemme-server i skyen som tolker signalet og sender resultatet tilbake til en form for output. Det kan ofte være i form av stemme eller melding på skjerm til brukeren. Men det kan også være at bilen blir låst opp, vindusviskerne settes i gang eller en lampe slås på.

Når vi er inne på devices som kan styres med stemmen, så finnes det allerede en milliard mobiltelefoner hvor Siri og Google Assistant og vennene deres fungerer allerede i dag.

Voice Interfaces – The Perfect Storm?

Akkurat som iPhone var en genial kombinasjon av eksisterende teknologier, så ser vi enda en gang at et antall teknologier og løsninger blir satt sammen på et bestemt tidspunkt.

 

1. Internet of Things

  Det første er IoT, som vi har pratet om i femten år uten å se så mye til det. Jeg tror det skyldes at vi ikke har hatt noe fornuftig grensesnitt for å styre alle de oppkoblede greiene våre. Hvordan kan vi swipe på skoene våre? Hvordan kan vi scrolle på ovnen vår?

Nå som stemmestyring kommer, så kan vi for første gang interagere med alle tingene våre på en enkel måte.

2. AI

Jeg begynte innlegget med å disse AI litt, men man er jo nødt til å innse at det er kraften i utviklingen av AI som driver stemmegrensesnittet – behind the scenes.

3. Wearables

Google glasses sank jo som en sten, gjorde de ikke? Visste du at Google glasses gjør comeback nå, som et verktøy for profesjonelle? De fungerer utmerket for mennesker som er nødt til å jobbe med hendene sine, samtidig som de må se på kart, tegninger og den slags.

De smarte klokkene blir stadig flere, og de aller fleste av dem kommer i nær fremtid til å kunne styres ved hjelp av stemmen.

4. Båndbredde

Når vi skal prate med alle disse stemmeserverne i skyen, så trengs rask oppkobling. Det finnes allerede, og det vil bli enda bedre med 5G.

Se da! Nå har vi alle delene vi trenger for en tredje digital revolusjon.

Helt ærlig, John – dette suger jo!

Nå mistenker jeg at du vrir litt på deg og tenker at nå – nå har John mistet grepet om virkeligheten. Det å snakke med Siri eller Google Assistant eller hva det nå kalles, det er jo egentlig en dårlig brukeropplevelse. Ganske kleint er det også. Det frister vel ikke så veldig å gå rundt og prate i det vide og det brede ute blant andre mennesker?

John prøver å ringe datteren sin, Saga, som har et – for Siri – helt uforståelig navn.

 

 Ok, la oss ta en titt på de to argumentene:

Det stemmer godt at dagens stemmeassistenter ikke gir en optimal opplevelse. Likevel er dette noe jeg prøver å se bort ifra.

Amazon har 10 000 utviklere som jobber dedikert med å knekke hele nøtten rundt Alexa.

Google kjører ut TV-reklame til forbrukere i Sverige for første gang.

Google Home er tapetsert utover Östermalmstorgs stasjon.

Når disse gigantene satser så stort på dette, så tenker jeg at det kommer til å skje til slutt. Og når det skjer, så kommer jeg til å være klar.

Jeg tenker at problemet med den nåværende versjonen av teknologien skygger litt for sikten vår. Den fører til at vi ikke klarer å se hvordan det blir når teknologien faktisk fungerer som den skal.

«De eksisterende begrensningene i en teknologi hindrer oss i å se hvordan det kan bli når det faktisk fungerer.»

Det andre argumentet handler om at vi aldri ville ha pratet med tingene våre, fordi det virker litt på trynet å gjøre det når man er ute blant folk. Det blir rett og slett sosial uakseptabelt.

Men det finnes mye sosialt uakseptabelt som plutselig har blitt sosialt akseptabelt. Det å gå rundt og prate for seg selv med et headset på telefonen, for eksempel, eller å gå rundt og sitte på offentlig transport med blikket festet på telefonen.

For 15-20 år siden hadde det vært veldig merkelig, men nå er det så vanlig at vi ikke engang tenker over at det skjer. Hva som er sosialt akseptabelt er noe som endrer seg med tiden.

OK – er du enig med meg nå?

Du trenger ikke å være det. Men om du er det, så blir det enda mer interessant i neste blogginnlegg.

Det skal handle om to ting:

1. I hvilke situasjoner/miljøer kommer stemme til å vinne frem?

2. Hvordan kommer jeg i gang med stemmeprosjektet mitt?

(By the way – hele dette blogginnlegget skrev jeg med stemmeinnlesning på telefonen min).

Se også disse blogginnleggene

Conversionista is open for business in The Netherlands.
Conversionista is open for business in The Netherlands. Read more.