Vi har nyligen sett lanseringen av nya produkter som Humane AI Pin, Rabbit R1 och Tab, där alla tre introducerar ett helt nytt användargränssnitt.
Det finns ingen absolut garanti för att dessa tre nykomlingar kommer att bli framgångsrika och ersätta några av våra befintliga enheter som vi har förlitat oss på i så många år. Men det är viktigt att uppmärksamma att de bär på en enorm potential och erbjuder nya möjligheter för hur vi människor kan interagera med teknologi på daglig basis.
Denna spännande utveckling är nu möjlig tack vare framsteg inom generativ AI och Large Language Models. AI kan vara den katalysator som förändrar hur vi använder teknologi, och markerar början på en ny era av teknologisk innovation.
Det tredje stora skiftet i användargränssnitt
Jakob Nielsen, grundare av Nielsen Norman Group och en auktoritet inom UX-området, beskriver i artikeln ’AI: First new UI paradigm in 60 years’ att vi nu upplever ett det tredje stora skiftet i användargränssnitt och det största genombrottet inom området på 60 år.
Nielsen beskriver att vi tidigare gått igenom två större skiften inom området – det första var runt 1945 med utvecklingen av Batch Processing som innebar att en användare skickade en komplett instruktion till en maskin kring den beräkning man ville utföra varpå maskinen, ofta 24 h senare, returnerade sitt bearbetade svar.
Därefter kom Command-Based interaction ca 1964, där användaren och maskinen turas om stegvis kring instruktion/output. Detta är fortfarande det dominerande gränssnitt som används än idag i de appar och på de webbplatser vi använder dagligen.
Fördelen i förhållande till Batch Processing var att användaren kunde justera sin input efterhand som output genereras av datorn.
Generativ AI möjliggör förändringen
Generativ AI är en representation av det tredje skiftet och den största förändringen inom gränssnitt människa/maskin på 60 år. Nielsen kallar detta paradigm “Intent based outcome specification”, avsiktsbaserad specifikation av önskat resultat.
Detta innebär att vi inte längre behöver uttrycka vad vi vill att maskinen skall göra – utan snarare att vi uttrycker vilken output vi vill ha. Enklare promptning är ett exempel på en sådan interaktion. Vi beskriver vad vi vill ha för information eller data, samt i vilket format och på vilket språk.
Ett utmärkt exempel som illustrerar detta scenario är när du till exempel använder Midjourney för att skapa en bild. I detta sammanhang kan du ge detaljerade beskrivningar av hur du vill att den slutliga bilden ska se ut. Maskinen tar sedan över och utför det komplexa arbete som krävs för att förverkliga din vision. Detta är en uppgift som, om den skulle utföras manuellt i ett redigeringsprogram som Photoshop, kanske skulle ta flera timmar att slutföra.
Det finns dock vissa utmaningar med denna typ av UI – det kräver idag en viss skicklighet för att kunna “prompta” rätt. Med andra ord – du behöver ha en tillräckligt hög förmåga att uttrycka dig för att få saker att hända. Detta är något som man inte kan förvänta sig att alla har.
Den klassiska Command-based interaktion, t ex illustrerad via stegvisa klick på knappar i ett webbgränssnitt, har fortfarande sina meriter – inte minst vid tillfälle när vi vant oss vid ett visst sätt att agera.
Hybridlösningar: Kombinerar klassiska UI med avsiktsbaserade gränssnitt
Sannolikt är därför det bästa sättet att hantera det pågående skiftet för flera användarfall idag att använda en hybridlösning, d v s att kombinera mer klassiska UI tillsammans med avsiktsbaserad och dialogbaserad interaktion. Detta är ett angreppssätt som dominerar de lösningar vi på talking to me utvecklar.
Ytterligare en del att bevaka inom utvecklingen av avsiktsbaserade gränssnitt är förstås även att interaktionen sker på det som för många är det mest smidiga och naturliga sättet att interagera – via vår röst.