Assistant vocal vs chatbot: de la parole aux actes ?

Avec les progrès du NLP, qui permettent l’essor du commerce conversationnel (v-commerce), la voix fait parler d’elle. La recherche vocale nous pose déjà beaucoup de questions (UX, SEO, reprise de contexte). L‘ère de l’assistance que nous annonçait Google dès 2017 va-t-elle se limiter aux simples chatbots que nous connaissons aujourd’hui? Bien plus que l’apparition d’un nouvel énième canal de vente auquel le marketing digital devra s’adapter, l’assistant vocal pourrait annoncer une mutation majeure d’internet et de l’e-commerce. Mais rentrons au coeur du sujet de ma thèse pour en débattre ensemble …

La voix sera-t-elle l’unique voie d’interaction avec notre assistant vocal ?

Moi qui n’ai jamais appris à l’école à taper à la machine, je me suis toujours interrogé sur la longévité exceptionnelle de nos claviers. Aujourd’hui tactiles sur nos écrans, les millénials challengent quotidiennement, avec leurs pouces aguerris, les études qui démontrent que la voix reste 3x plus rapide que le messaging (sans parler des fautes de frappes bien plus fréquentes que les lapsus). Discret, asynchrone et multitâche, le texte conserve, il est vrai, encore de nombreux atouts.

Le robot assistant Pepper parle avec une femme

Crédit: IBM Watson SoftBank (cc)

Pourtant la voix reste le moyen le plus naturel et direct d’exprimer nos besoins et nos pensées. La Voice User Interface (VUI) nous permet de relever la tête, de libérer nos mains et notre regard des écrans. Cette UX sans écran, que certains nomment abusivement Zéro UI, pourrait paraître presque une évidence. En effet selon Gartner, 30% de la navigation sur internet se fera sans écran en 2020.

Mais la voix n’est pas adaptée à tous les cas d’usages, ni à tous les lieux ou à toutes les situations. Et c’est pour cette raison que les enceintes intelligentes envahissent nos maisons car la sphère privée libère la parole en assurant une certaine confidentialité.

L’autre aspect à ne pas sous-estimer concerne notre capacité de mémorisation. En particulier lorsqu’il s’agit de se souvenir précisément d’une série de mots ou de chiffres sans rapport direct.  Prenons comme exemple fil rouge le voicebot précurseur et déjà très abouti de Oui.sncf: il ne sera pas aisé de se souvenir du TGV numéro 7486 de 8h57 qui arrive à 21h39. Et encore moins si l’on vous propose une liste de plusieurs trains.  L’affichage d’une liste de choix ou d’informations reste donc primordial afin de limiter la charge cognitive et Amazon l’a bien compris en sortant l’Amazon Echo Show.

Ainsi la nécessité d’interfaces utilisateur naturelles (NUI) et multimodales sera le 1er sujet développé dans ma thèse.

Assistant vocal ou univers de marque : pourquoi choisir ?

Les fonctionnalités proposées par les Virtual Digital Assistants (VDA) ou Digital Voice Assistants (DVA) sont de trois types: soit l’assistant utilise un moteur de recherche, soit il lance une application vocale (Action on Google ou Skill d’Alexa) installée nativement (first party) ou bien il passe le relais à une app tierce partie (third party). Ici par exemple si vous demandez « Ok Google, je veux réserver un billet de train » Google Assistant affiche en carrousel les sites internet trouvés, si vous souhaitez dialoguer avec la SNCF vous devez dire « Ok Google, passe-moi Oui.sncf ».

Mise en relation avec l'assistant vocal oui.sncf

 

L’assistant vocal Google vous met alors en relation avec le chatbot Oui.sncf qui possède sa propre voix, ton et personnalité (bot persona). Cette communication directe avec le consommateur permet de lui offrir non seulement un service mais aussi une expérience personnalisée et immersive dans l’univers de la marque.

Cependant, la mise en relation avec un assistant vocal tierce partie est par essence contraire à la promesse d’une expérience utilisateur sans couture.

Alexa, elle, continue à mener la conversation quand l’utilisateur demande à ouvrir une skill (Amazon ne fournit  qu’une seule voix mais laisse la possibilité d’en utiliser une autre comme par exemple dans la skill de Gordon Ramsay). Cette subtile nuance, qui n’existe peut-être qu’en apparence, permet de mon point de vue de garantir une parfaite homogénéité de l’UX: un seul et unique interlocuteur, mon assistant personnel Alexa ! En revanche la marque, qui doit respecter les guidelines d’Amazon, perd en liberté de ton et se voit quasiment reléguée à un simple fournisseur de services ou de produits.

Mais avec plus de 30 000 skills rien que pour Alexa, il ne sera pas simple pour l’utilisateur de savoir quelle compétence appeler par son nom  (invocation name chez Amazon ou explicit invocation  chez Google, ici Oui.sncf ).  Aussi  Alexa ou Google Assistant vont rechercher et activer à la place de l’utilisateur, l’application vocale qui pourra répondre à son besoin: ici acheter des billets de trains (intent contenue dans l’utterance chez Amazon ou implicit invocation chez Google). Cependant les facteurs pris en compte dans cette recommandation d’une application vocale parmi ses concurrentes, capables d’exécuter la même tâche, n’ont pas été complétement définis. Ni si ce choix était pérenne. On peut donc s’interroger sur les biais que pourrait introduire le marketing digital sur ces algorithmes de décision basés sur les skills déjà activées ?

L’autre source de friction réside de la reprise de contexte. C’est à dire la capacité de l’assistant vocal à conserver la relation entre la dernière phrase prononcée et les échanges précédents. Toujours dans notre exemple Oui.sncf, il s’agit de savoir ci-dessous que le premier train est celui de 07h19 et non celui de 9h21:

erreur de reprise de contexte par le chatbot et assistant vocal Oui.sncf

 

Les chatbots vocaux sont encore balbutiants et les progrès constants de l’AI corrigeront bientôt ces petites erreurs. L’idéal serait d’assurer une persistance du contexte au-delà d’une seule conversation en l’étendant aux différentes sessions par Machine Learning (ML) depuis l’historique de nos interactions.

Cependant une réelle assistance ne réside-t-elle pas dans la capacité de mon assistant vocal à rester mon unique interlocuteur ? Qu’il connaisse mes préférences pour me conseiller de manière pertinente et qu’il aille chercher par lui-même l’information nécessaire pour anticiper mes besoins et me rendre des services ?

Si ces attentes étaient satisfaites, quelles conséquences auraient-elles sur le marketing digital ?

La 2 ième thématique discutée dans ma thèse porte sur l’impact de l’ère de l’assistance personnelle sur le marketing digital et l’e-commerce.

A l’occasion de la conférence Google I/O du 8 mai 2018, Sundar Pichai a annoncé  la mise en oeuvre dès cet été de la fonctionnalité Google Duplex, qui permettra à l’Assistant Google de prendre des RDV ou de faire des réservations de manière autonome. Le réalisme de la voix de synthèse par l’utilisation d’onomatopées est tel, qu’il est presque indétectable pour un interlocuteur humain et on peut donc se demander si l’assistant vocal n’a pas passé le test de Turing. D’un point de vue éthique, le débat est déjà lancé sur les dérives potentielles de l’utilisation de cette technologie à des fins de démarchage téléphonique ainsi que sur la nécessité d’informer son interlocuteur qu’il parle à un robot.

Anthropomorphisme de l’assistant vocal et marketing digital : je t’aime moi non plus !

Jusqu’où  mon assistant personnel doit-il prendre les traits et la voix d’un humain pour réaliser ses tâches et proposer une UX satisfaisante ?

Anthropomorphisme: jusqu'où l'assistant vocal personnel doit-il ressembler à l'humain?

Parler c’est bien, agir c’est mieux ! Aussi pour nous faire gagner du temps nos assistants vocaux devront parcourir internet comme le font déjà aujourd’hui les bots publicitaires ou d’indexation. Mais si les humains, qui sont l’objet de toutes les attentions du marketing digital (display RTB, retargeting …etc) ne surfent plus par eux-mêmes, le net redeviendrait un réseau informatisé machine to machine sans interface graphique. Les contenus et données seraient fournis par les bots à l’assistant vocal pour analyse et restitution à l’utilisateur. 

L’e-commerce ne ciblerait donc plus directement l’utilisateur mais son assistant vocal, son avatar du net. 

Beaucoup ont anticipé l’enjeu d’être choisi par l’assistant virtuel comme l’unique réponse à une requête et réalisent déjà des optimisations de référencement pour accéder à la position zéro tant convoitée. Mais peu gardent à l’esprit que:

L’établissement d’une dépendance implique l’émergence d’une relation entre l’utilisateur et son assistant personnel.

L’anthropomorphisme éclairera de manière transverse les deux sujets d’analyse précédents. 

Daryl Plummer, du Gartner, prédit même qu’en 2020 « nous parlerons davantage avec les robots qu’avec nos conjoints ». Notre propension naturelle à l’anthropomorphisme est bien illustrée dans l’étude Speak Easy :

  • 70% des utilisateurs réguliers d’assistants vocaux souhaitent avoir le sentiment d’interagir avec leur assistant virtuel comme avec une vraie personne
  • 37% des utilisateurs voudraient que leur assistant vocal soit une vraie personne
  • 26% ont même fait des rêves érotiques à leur sujet
  • 250 000 demandes en mariage reçues par Alexa

Pourtant l’étude indique que 22% des utilisateurs se sentent stupides de parler à leurs smartphones, mais qu’en serait-il s’il s’agissait d’une intelligence artificielle avec une personnalité ? En tout cas, certains s’élèvent contre toute ambiguïté et le sujet ne laisse personne indifférent.

« Ok Google, tu veux pas être mon tuteur de thèse ? »

Malgré les nombreuses interviews et les passionnantes discussions menées, je n’ai toujours pas trouvé de tuteur de thèse. Alors j’ai demandé à mon assistant personnel s’il ne voulait pas m’aider…voici ce qui m’a répondu ne trouvant pas avec qui me mettre en relation:

Réponse de l'assistant vocal Google Assistant à la question: tu veux pas être mon tuteur de thèse ?

 

Alors peut-être partagez-vous mes réflexions ou bien pensez-vous tout à fait le contraire. Dans les deux cas, je suis intéressé par toute remarque constructive ou argument étayé, qui me permette de murir ma réflexion et d’enrichir ma thèse. Laissez un commentaire ou contactez-moi sur Twitter ou LinkedIn pour en discuter ensemble… Merci d’avance pour vos partages sur Twitter et Facebook !

Crédits:

À propos de l'auteur :

Techno&oeno-phil, ingénieur, manager des achats du #digital dans la #banque. Parlons de l'impact sur le #marketingdigital et l'#ebusiness de l'#UX des #voiceassistant et des #chatbot ou de l'#AR. @ephilnews

2 Comments

  1. Steph 31 mai 2018 à 10 h 42 min - Répondre

    Très bon article, très complet !
    Penses-tu que l’on sera bientôt capable de remplacer les services clients téléphoniques par des voicebots ?

    • Philippe JACQUET 31 mai 2018 à 16 h 38 min - Répondre

      Bonjour Steph,

      Merci pour ce commentaire.
      Je pense pour la majorité des demandes, qui sont souvent les mêmes, peuvent être prises en charge par des chatbots vocaux. On peut également qualifier les appels entrants (identité, motif de l’appel..etc) par des bots. Par contre pour les demandes complexes ou pour des clients très mécontents, un conseiller formé et empathique reste l’assurance d’un bon niveau de satisfaction client.

      Bien cordialement

      Philippe

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.