Après toutes les évolutions technologiques du “marketing numérique”, de la communication digitale à 360°, pourquoi parle-t-on tant aujourd’hui de la révolution “du vocal” et quid de l’assistant vocal ?

La commercialisation par la voix est un des plus vieux moyens utilisés ! Alors de quoi parle-t-on lorsqu’on évoque le marketing numérique vocal ? Comment s’y prendre ? Est-ce un incontournable pour toutes les entreprises ? Et de quoi parle-t-on exactement quand on dit “Le Vocal”? C’est un bloc ou bien un domaine qui comprend des déclinaisons diverses ?

 

LE VOCAL : ENRICHISSEMENT DU MARKETING DIGITAL DE DEMAIN ?

QU’ENTEND-ON EXACTEMENT PAR “Le VOCAL” DANS LE MONDE DU MARKETING DIGITAL ?

Je suis certaine que vous avez tous “entendu” parler de voix de synthèse, de recherche vocale, de reconnaissance vocale, parfois même de SEO vocal, et que vous commencez à entendre des bruits de « bots » 🤖… voicebots, callbots, chatbots, d’enceintes vocales, enceintes connectées… sans parler du roi dans ce domaine : l’assistant vocal ! 🎙

On voit bien la volonté de réincorporation de la dimension émotionnelle de l’humain dans la technologie à travers la voix : nos assistants vocaux ont été baptisés de prénoms, Alexa, Siri, Cortana, Echo pour les premiers nés outre-atlantique, … puis Bixby, Ding Dong, Genie X1, Xiaoyu et enfin Celia pour leurs petit-frères et soeurs asiatiques.

Alors, qu’est-ce qu’un assistant vocal ?

Une des définitions communément données par les spécialistes du domaine est que “Un assistant vocal , aussi appelé assistant personnel intelligent ou enceinte connectée, est un appareil basé sur la reconnaissance vocale du langage naturel afin de permettre à son utilisateur d’effectuer une recherche par la voix.”

Avant de faire le focus sur l’assistant vocal, prenons le temps de faire un petit tour d’horizon, car il est pertinent de se poser le plus tôt possible dans la réflexion d’une stratégie vocale, quelle est la forme de positionnement la plus pertinente pour notre structure.

Différences et similitudes avec les autres technologies vocales

 

voicebot marketing vocal

    1. Commençons par le Chatbot  : ce mot vient de deux mots anglais, “chatter” (bavarder) et robot ; il désigne un programme informatique capable d’échanger avec l’humain à l’oral 🗣 et à l’écrit ⌨. Son fonctionnement est basé sur un apprentissage initial, permettant le repérage des mots clés et des formes syntaxiques répétitives, qui lui permettent de construire des réponses cohérentes.
    2. Le Bot Conversationnel est très proche du chatbot ; ce qui l’en différencie est son évolutivité. Là où le chatbot ne sait que ce qu’on lui a appris, ce logiciel peut tenir une conversation 💬 . Il comprend la 👂🏻reconnaissance automatisée du langage naturel  (TALN) et il sait nous poser des questions pour vérifier qu’il a bien compris notre requête. Il saura alors choisir dans une liste d’options possibles la meilleure interprétation et adresser une réponse contextualisée. Cette méthode d’essais et de potentielles erreurs, permet au bot conversationnel d’apprendre en continu et donc de devenir de plus en plus performant.
    3. Le Voice Bot 🤖, lui, est un Bot Conversationnel qui ne permet d’échanger que 🔊 vocalement : notre demande est formulée intuitivement, à l’oral ; la réponse est aussi vocale, et donnée dans la même langue que la question.
    4. Si on monte encore en gamme, on arrive à👨🏻‍💻 l’Agent Conversationnel. Ce programme informatique sait aussi converser 💬avec l’humain (intégrant aussi le TALN), mais fonctionnellement, il va souvent plus loin que le simple échange : on le trouve surtout dans les milieux de recherche scientifique mais aussi dans le rôle de support des conseillers de clientèle. Il est couplé la plupart du temps avec un représentation visuelle humaine 👁appelée Avatar.
    5. L’Agent virtuel enfin, est agent conversationnel auquel on ajoute toujours une figuration visuelle, l’avatar🧏🏻‍♀️🧏🏻‍♂️ que nous venons d’évoquer. Il est utilisé comme interface dans les centres de relation client. C’est pourquoi on lui donne une apparence inspirée de l’humain, qui va jusqu’à l’imitation des gestes, mimiques et expressions faciales.

Chronologie du “vocal” dans la sphère du marketing digital

Les interfaces vocales

Les interfaces vocales sont des techniques informatiques dont l’objectif est de générer une parole artificielle. En entrée, pour nourrir le système, nous devons lui apprendre le langage.

  1. Nous avons donc besoin de techniques de traitement linguistique pour transformer de l’orthographe écrite en une version exploitable par une machine : une version phonétique qui sera prononcée de manière reconnaissable pour en faire une version sonore, bien compréhensible.
  2. Deuxième étape : transformer à cette retranscription phonétique en son numérisé, diffusable sur haut parleur. A ce niveau ce sont les techniques de traitement du signal qui rentrent en jeu.

 

schéma fonctionnement assistants vocaux

 

C’est la synthèse vocale. Pour rentrer dans le conversationnel, et rendre possible l’élaboration d’interfaces homme-machine vocales (IHM), ce procédé a été complété par la reconnaissance vocale.

Attention ! J’a été bien surprise en découvrant que l’idée de la synthèse vocale est posée par un grand mathématicien dès 1761 et la première « machine propre à exprimer tous les sons de nos paroles, avec toutes les articulations »*, a été fabriquée dès 1784 !  *(C’est intéressant de voir à quels usages ces avant-gardistes imaginaient pour la Synthèse Vocale)

Puis long silence radio 📻… puisqu’il faut attendre les années 1960 pour voir émerger une technique exploitable basée sur la modélisation du spectre sonore, mesuré en Hz. Ce sont les formants de la voix humaine qui sont encryptés numériquement pour reconstituer à partir de cette matière première sonore, un spectre sonore artificiel, un signal acoustique numérique, une voix de synthèse.

 

 

Pour la petite histoire, le besoin vital de l’astrophysicien, un des premiers utilisateurs connus de la synthèse vocale, Stephen Hawking, a mobilisé les équipes d’IBM, premier acteur majeur sur ce marché comme on le voit ci-dessus, faisant faire un bond en avant à cette technologie.

 

 

Entrée dans l’ère de l’assistant vocal

La 3ème génération de techniques vocales, celle qui est utilisée aujourd’hui, a pu aller plus loin en se nourrissant de véritables morceaux de parole naturelle, et non plus de simples sons. Cela implique des volumétries de données bien plus conséquentes, ce qui a nécessité d’attendre des capacités de stockages et de traitements informatiques plus performantes.

C’est ce qui explique en grande partie qu’il se passe peu de choses visibles entre 1961 et 2011, comme on le voit sur l’infographie ci-avant, 2011 création de SIRI par Apple. Puis tout s’accélère avec le lancement de CORTANA de Microsoft en 2013, suivi par Amazon Echo en 2014 pour arriver à ALEXA en 2015 suivi par Google Assistant en 2016. De 2015 à 2017, ces premiers assistants vocaux seront améliorés, jusqu’à reconnaître 6 voix différentes (multi-user) et leur commercialisation s’étendra partout sur le globe.

A partir de 2016 une concurrence asiatique arrive avec Ding Dong en Chine, offre directement concurrente à Echo suivie en 2017 par l’éclosion de Bixby de Samsung, GenieX1 d’Alibaba, et Xiaoyu de Baidu. Le dernier né date de 2020 : il s’agit de Celia de Huawai, qui interagit en 4 langues et ajoute la fonctionnalité de traduction en temps réel.

 

L’ASSISTANT VOCAL AUJOURD’HUI

CHIFFRES CLES

Nous connaissons déjà tous les grands de ce marché initialement dominé par Amazon… avec son Alexa qui est disponible sur pas moins de 50 interfaces avec plus de 40 000 « skills » qui se déclinent dans 18 catégories !

leaders du marché de l'assistant vocal

Mais le smartphone 📳, au tout début support alternatif de connexion, a aujourd’hui surpassé les enceintes connectées . C’est là point faible d’Amazon côté utilisateur final : il est absent du smartphone en natif. Le paysage des assistants vocaux est donc en pleine mouvance avec la belle remontée qu’effectue Google…  et attendons de voir ce que feront les nouveaux concurrents à peine éclos de l’autre côté du globe !

 

Parts de marché assistant vocal

Du côté des marques aussi Google offre des avantages bien séduisants : en termes de recherche vocale, Google va puiser des informations dans toutes les sources de contenus de marque disponibles, soit au moins 5 sources connues pour trouver des réponses :

  • site Web de la marque
  • sites tiers
  • graphe de connaissances
  • d’applications vocales
  • liens Web

Il y a de fait, tout une stratégie de SEO vocal à déployer pour toute marque voulant se lancer dans les leviers du vocal.

Ce dont nous sommes déjà sûrs, c’est qu’il aura demain plus d’assistants vocaux que d’êtres humains sur notre planète !

L’équation est simple : il y en a déjà 7,5 milliards dans le monde, et la courbe d’adoption à déjà dépassé celle du smartphone … sachant que ce sont les « Smart TV » qui prendront le relais comme device de connexion, avec une croissance attendue de 121% dans les 5 années à venir.

 

 

La France n’est pas en reste avec plus de la moitié de la population connectée, dans toutes les tranches d’âges, et un retour d’expérience plus que positif, limite addictif : 77% des utilisateurs français estiment que leur quotidien s’en trouve amélioré. Alors, quels sont les apports des assistants vocaux ?

APPORTS et AVANTAGES DES ASSISTANTS VOCAUX

Quels sont les avantages à utiliser la voix au lieu des interfaces textuelles ou graphiques  ?

Apports de l’assistant vocal pour les utilisateurs finaux

  1. La vitesse 🚀🗣: comme mode pratique d’activation, parler est plus rapide qu’écrire. En moyenne, les gens ont un débit de 150 mots/minute dans leur langue maternelle. Cela fait de la voix le moyen le plus efficace pour adresse ses demandes aux moteurs de recherche. Et les usages iront de plus en plus dans ce sens. Je le vois tous les jours avec mes enfants et leurs amis : ce phénomène ne fera que s’accentuer avec la Gen Z qui a du mal à prendre un crayon ou même taper sur un clavier, mais trouve tout naturel de parler à Google ou Alexa pour « leur poser » les questions les plus variées !
  2. Le naturel 😋🙄😏 : dans la qualité de l’expérience également, la voix est plus naturelle que taper sur un clavier. Elle permet de mieux détailler ses souhaits, besoins et bien sûr, exprimer ses émotions. Et une réponse dans laquelle on retrouve ces aspects humains est attendue ; les assistants vocaux répondent désormais avec des intonations et des plaisanteries à de plus en plus de questions, et ces réponses sont bien plus appréciées des utilisateurs.
  3. Mains libres 🙌🏻: il nous arrive à tous de devoir conduire, cuisiner, écrire… bref dans toutes les situations où le « main-libre » est d’une grande aide, le vocal est le moyen privilégié. Sans parler des utilisateurs en situation de handicap : il leur suffit de « parler » pour envoyer des messages à des amis, effectuer des achats, dicter des textes en mode « speech-to-text » et autres tâches qui nécessitaient autrefois exclusivement l’écriture.
  4. Disponibilité 24/7 ⏲:  fini de passer de stresser parce qu’on doit appeler pendant nos heures de travail pour joindre un service client aux heures d’ouverture. Les assistants vocaux des services administratifs et autres services clientèles de nos marques préférées sont disponibles 24/7. La rapidité de prise en compte de notre demande et le temps de réponse sont largement optimisé et font baisser le niveau de frustration.
  5. Simplicité 👍🏻et autonomieconfigurer son assistant vocal, aujourd’hui, il suffit à l’utilisateur d’activer l’assistant vocal embarqué dans son smartphone via le menu paramètres. Reste à télécharger l’application adéquate pour régler ses enceintes connectées.

 

Gains pour les marques et les annonceurs ?

Source : https://www.wam-referencement.fr/blog/emotions-contenu-marketing-engageant/
  1. Reconnaissance de la marque ® : au-delà de passer un message purement promotionnel, la voix fournit un canal de diffusion identitaire d’une marque donnée. C’est un vecteur à forte composante émotionnelle, et le ton adopté, le timbre de la voix et la prosodie (musicalité) choisies ont « vocation » à être représentatifs et reconnaissables. Les grandes marques françaises l’ont bien compris : nombreuses sont celles déjà présente sur Alexa – 20 Minutes, PagesJaunes, OUi.sncf, Phlipps, Legrand, Air France, Ratp… Par exemple, dont certaines ont déployé leur propre « skill » :
    • AlloCiné répond aux demandes portant sur les sorties en salles sous forme de pastille audio hebdomadaire, d’une durée d’1 à 2 minutes, lue par un journaliste de la rédaction du site.
    • PagesJaunes fournit l’accès aux coordonnées, horaires d’ouverture, consultation des avis …
    • Monoprix  a créée un service de liste de courses 
  2. Large couverture pour une connexion interrompue 💫 : basé sur une architecture cloud computing, le fonctionnement des assistants vocaux, est véritablement « cross-canal ». Il est en effet possible d’interagir avec  les utilisateurs partout dans leurs déplacements dans la voiture, à la maison, etc. des supports matériels multiples  … Enceintes connectées, smartphones et autres devices, répondant ainsi aux enjeux « seamless » (sans couture) pour une connexion quasi ininterrompue des entreprises avec leurs clients.
  3. Nouveaux usages 🆕 : en plus des fonctionnalités natives des assistants, les marques peuvent faire développer leurs propres fonctionnalités, vues par les utilisateurs comme des « app » à part entières. Ce vecteur permet de booster les contenus et les services des marques, afin de générer une expérience probante pour l’utilisateur.
  4. Gains de productivité 💹 : les interfaces vocales, présentent le double avantage d’une disponibilité 24/7, donc plus étendues qu’un agent humain, et cela à un coût d’exploitation bien moindre. Leur déléguer les fonctions de premier niveau pour concentrer les ressources humaines à des champs d’expertise plus pointu est une approche rentable.
  5. Relation client 🤝🏻 : comme on l’a déjà évoqué, la voix est plus naturelle que l’écriture. Les clients expriment de manière plus fine et complètes leurs attentes (intégrant l’émotionnel), ils ont plus de facilités à les contextualiser : qui n’a pas reculé devant une réclamation à l’idée de devoir tout décrire par écrit ? L’entreprise peut ainsi collecter des informations plus riches et précises sur les besoins de leur clients afin d’y répondre mieux à court-terme, mais aussi, pour orienter leurs évolutions.
  6. Optimisation des processus industriels 🏭 : le B2B aussi peut trouver un bénéfice à utiliser des assistants vocaux. Au lieu de se baser sur de grands volumes de données pour les entraîner, ces assistants vont être concentrés sur les termes métiers et instructions très spécifiques. On en trouve déjà dans les domaines du tourisme, de l’hôtellerie et de l’assurance.

 

LIMITES / INCONVENIENTS de l’ASSISTANT VOCAL

Nous l’avons bien vu, les raisons pour lesquelles les marques et leurs clients se connectent déjà et de plus en plus par le vocal ne manquent pas. Et pourtant, la révolution du vocal n’a pas encore eu lieu : de nombreuses limitations technologiques y font encore obstacle.

Limites pour les marques

  1. B2C :
    • Cas d’usages : la technologie doit toujours être au service de l’usage. Toutes les marques doivent véritablement définir si et comment le vocal peut nourrir la préférence de marque ; concrètement, elle ne doivent se lancer que si le vocal peut enrichir l’expérience utilisateur. Auquel cas toute marque devra faire du design et faire en permanence du test and learn. 
    • Confiance : les consommateurs deviennent de plus en plus exigeants, dans leurs recherches vocales comme dans tous les précédents modes de communication avec leurs marques. Les équipements vocaux ont encore une marge de progression importante. Il y a encore beaucoup de frustrations générées par les limites des assistants vocaux : Les consommateurs imputent ces manques aux marques et non à la technologie et perdent confiance en la marque.
    • La compréhension des émotions : dès qu’un problème est un peu complexe, intégrant la nécessité de prendre en compte une dimension émotionnelle, il est encore impensable de se fier à une Intelligence Artificielle. Les call-centers offshore essaient de développer l’empathie entre humains de 2 milieux culturels différents, a fortiori le problème se pose dans les relations entre machines et humains, tant le contenu de l’ordre du non-dit est vaste.
    • Maitrise de sa diffusion : à l’instar des pages de résultats de recherche Google sur votre PC (SERP), si vous ne figurez pas dans les 3 premiers résultats, votre marque disparaît puisqu’elle ne se classe pas du tout.
    • Sécurité et confidentialité : les utilisateurs finaux sont conscients que les informations personnelles qu’ils livrent durant les conversations sons susceptibles d’être enregistrées, conservées voire même piratées. La question de l’espionnage se pose également, la CNIL (Commission Nationale de l’Informatique et des Libertés) allant jusqu’à préconiser de couper le micro de l’assistant vocal lorsqu’il n’est pas utilisé.

  2. B2B :
    • « La première contrainte est celle du bruit«  souligne lors de l’événement Voice Tech André Joly, directeur général de Simsoft Industry, qui a conçu Spix, un assistant vocal dédié à l’industrie et déployé chez Vallourec.
    • La gestion des données : à l’instar des utilisateurs, les industriels ne souhaitent pas que leurs data soient envoyées dans les clouds des géants outre-atlantique.
    • Le taux de disponibilité : le bon fonctionnement de ce service est directement tributaire du bon fonctionnement du réseau Internet. La question d’une architecture technique fiable se pose donc comme un sujet à part entière pour toute activité sensible.

EN CONCLUSION

Sommes-nous prêt à intégrer dans notre environnement personnel, un véritable compagnon vocal ?  78% des personnes interrogées pensent qu’à l’avenir on utilisera davantage notre voix pour gérer notre quotidien.

Lancer une musique ou bien demander quelle sera la météo de demain, ou même régler l’éclairage ou bien la thermostat, sont des utilisations des assistants vocaux rentrées dans les habitudes. Mais ces usages vont s’élargir et toucher des activités plus sensibles : les achats « en ligne » seront désormais gérés par le vocal, selon les conclusions de Juniper Research :

Précisions importantes toutefois : ces achats portent sur des transactions de biens « dématérialisés » [transferts d’argent, achats de biens numériques (musique, vidéo, photo, logiciels, articles…] James Moar, auteur de l’étude ajoute que «les téléviseurs connectés et les écrans intelligents sont vitaux dans ce cadre, car ils peuvent fournir un contexte visuel qui manque aux enceintes intelligentes».

Clairement, les enceintes connectées sont en plein essor, les utilisateurs sont déjà « addicts » et les marques y voient des bénéfices ; mais s’ils gagnent en pertinence, les algorithmes d’IA, ont encore bien des progrès à faire pour intégrer la dimension « émotionnelle » de la voix. Les « devices » quant à eux doivent aller ver la restitution des informations sur écran, indispensable dans le commerce, estime Matthieu Cévaër, COO et associé chez Hellomybot. « La vraie complexité est de construire un agent conversationnel doté d’une identité en adéquation avec la marque », résume David-Henri Bismuth, directeur du Lab de l’agence digitale Niji.

Cela impliquera pour l’utilisateur, de consentir à livrer encore plus de données personnelles. Y sommes-nous disposés ? Selon un sondage OpinionWay en 2021, 81% des Français craignent l’utilisation que les constructeurs des assistants vocaux peuvent faire de leurs données.

Avant de se lancer, une marque doit donc se demander en quoi la voix va permettre de résoudre un problème à ses clients. « Si la voix pas n’est pas utile à l’expérience qu’elle propose, il est certainement préférable qu’elle ne se lance pas dans la voix ». De l’avis de Meryem Tom, Country Manager d’Alexa Skills pour le Royaume-Uni.

SOURCES