Data 2018 : prenez 3 minutes pour saisir les enjeux de la relation Homme-Donnée

Nous sommes dans une relation très particulière avec l’information. On abhorre lorsqu’elle afflue de trop, on la consulte quand même à chaque moment de libre. On aimerait laisser moins de data à chaque navigation. Mais on ne peut s’empêcher de consulter le petit écran, de l’interroger, de s’inscrire à des appli. Nous contribuons finalement de façon continue à la volumétrie des 2,5 Terabytes de données (628 000 trillions … de disquettes pour ceux qui les ont connues). La tendance est encore plus à l’accélération; il va falloir jongler avec cette donnée et en faire quelque chose. C’est le moment de soigner la relation homme-donnée !

Assurez-vous d’avoir les notions fondamentales pour 2018 et parcourez ce glossaire de 3 minutes. Il est une petite introduction à ma thèse : « Démocratiser l’interprétation de la data« .

1 – Le data déluge

A commencer par le côté envahissant et négatif de la donnée :

Dataclysme : C’est le déluge de données qui alimente le big data, souvent métaphoriquement comparées à un flux continu de pétrole, de carburant ou de nourriture… Il vient alimenter les entreprises qui exploitent l’information ou la monnaient. Ce déluge expose chacun au risque d’infobésité et pourrait être comparé à l’équivalent d’une « pollution » du cyberespace, grande marée noire informationnelle.

L’expression « Data never sleeps » (la donnée ne dort jamais) : expression utilisée en 2016 par DOMO, décrivant que chaque minute de la journée qui s’écoule, une volumétrie incroyable de formats de données différentes est générée dans le monde ! Par exemple, Google Traduction transforme 70 Millions de mots, les amateurs de Youtube partagent 400 heures de vidéo sur Youtube, 3,5M de textos sont échangés rien qu’aux Etats-Unis… Les 24 fuseaux horaires déversent les uns après les autres leurs gigantesques réserves de données.

La donnée ne dort jamais

RGPD (Règlement Européen de Protection de la Donnée) : nous devrions entendre intensément parler des données personnelles, dans un contexte défensif et réglementaire, au moins jusqu’au 25 Mai 2018, date de son entrée en vigueur. En attendant, par son périmètre inédit de sanction, il fait plancher à peu près tout ce que la planète compte de propriétaires de site web, de cabinets de consulting, marketing agencies, agences médias, publicitaires, courtiers de données, DMP, hébergeurs sur la cartographie des données clients (particuliers). Le Graal sera d’obtenir du particulier un consentement éclairé et objectif, et qu’il n’ait aucun doute sur la destination de ses données. Voici un scenario schématique :

GRPD protection des données

Est-il besoin de rappeler qu’à défaut de mise en conformité des systèmes de protection de données, une sanction de 4% du CA mondial du contrevenant sera applicable, quel que soit le lieu du siège social de la société qui (mal)traite les données personnelles ? Légiférer de cette manière est sans doute le reflet des risques importants d’atteinte à la vie privée (exploitation non consentie, fuite des données, identification de la personne). Mais n’est-ce pas également un aveu du peu de maîtrise des internautes sur les modes de collecte de data, de plus en plus fusionnelles avec les usages quotidiens ? Actuellement, qui pourrait prétendre être garanti que ses cookies sont bien détruits au bout de 13 mois ?

Le 23 Novembre dernier, Uber révélait avoir subi (et non révélé) une cyberattaque provoquant la fuite de données de plus de 57 millions de clients et de chauffeurs en octobre 2016. Les noms, les adresses électroniques et numéros de téléphone de plus 50 millions de clients auraient ainsi été dérobés, les noms et numéros de 7 millions de chauffeurs dont 600 000 permis de conduire des chauffeurs. Néanmoins, d’après les expertises internes, les historiques des trajets ainsi que les numéros de cartes et de comptes bancaires, les numéros de Sécurité sociale et les dates de naissance des utilisateurs n’auraient pas été volés (sic). Un rapide calcul permettrait d’estimer l’amende potentielle à plus de 400 M$ selon les principes de la prochaine mouture du RGPD.

En outre, savez-vous que la responsabilité juridique en cas de non-respect du RGPD pourrait être partagée entre un site web et son hébergeur, le cas échéant ?

Quelle couleur, la collecte de données ? Blanche, grise ou noire ? La collecte blanche est celle qui est déclarative et officielle; la grise désigne la collecte non visible et non officielle, celle qui s’immisce dans les usages quotidiens à notre insu, généralement issue des phénomènes de « buzz », de discussions en ligne. La noire est interdite.

Collecte de données biométriques : pour récupérer de la donnée, la tendance sera moins aux questionnaires qu’à des interfaces innovantes designés, pour offrir une expérience sans couture à l’internaute (avec son autorisation la plupart du temps, mais pas toujours) :

En Australie, le système de reconnaissance faciale et le scan de l’iris de l’œil sont un passage obligé pour entrer sur le territoire, ou accéder à l’avion. Le gain de temps est estimé à 80% à terme. Et…combien de points de contact comme autant d’opportunités de collecter de la data ? Outre les autorités qui peuvent contrôler en masse et en temps réel l’identité des nouveaux arrivants, les prestataires aéroportuaires et l’IATA, pourront mettre en œuvre une « identité unique » permettant de s’authentifier une seule fois sur l’ensemble d’un déplacement avec correspondance. 9 Mds de passagers d’affaires et de touristes dans le monde d’ici 2020, rêvent d’une expérience de voyage sans file d’attente et sans arrêt aux contrôles.

2 – La data ‘geek’

Entreposage de données : il y a des applications et des interfaces qui nous facilitent suffisamment le quotidien pour ne pas se poser (souvent) la question du sort des données que l’on laisse. Mais la question « où vont mes données ? » n’est pas facile à résoudre, du moins à l’échelle de l’individu. Elles ne sont pas directement visibles, ni intelligibles sans une haute expertise; elles se déversent dans des réservoirs dont les acteurs de réseaux sociaux et éditeurs d’application sont les seuls propriétaires.

Plus le bénéfice et l’expérience de l’utilisateur sont exceptionnels ou arrivent à point nommé (cas d’urgence), moins la résistance à partager ses données est forte.

Facebook, par exemple, conserve 71 classes de données et il vaut mieux savoir de quoi il en retourne : des catégories socio-professionnelles aux publications (pages, posts, vidéos, images), les like, on le sait de plus en plus largement. Ce que l’on sait moins : sont aussi conservés les profils d’amis supprimés, l’historique des emplois occupés, les croyances religieuses,… Sans oublier les données de la reconnaissance faciale : un algorithme détecte les visages d’un profil; un autre algorithme compose et archive un visage « moyen » à partir des creux et des bosses des visages identifiés. Ces données faciales sont multipliées par 2 milliards d’abonnés, et sont stockées dans des data farms (littéralement des fermes de données) dans l’Oregon à Prineville. Ici, des cliclés pris par un blogger américain, Robert Scoble.

Si vous avez un compte Gmail, où G+, vos données sont hébergées en Georgie, dans le conté de Douglas County (ci-dessous).

Entreposage des données Google

Big Data (La réalité du) : connaissez-vous les chiffres de progression de ce phénomène au retentissement économique colossal, autant que superbe buzzword ? Retenez la loi des ’80’: 80% de la Big data a émergé sur les seules 2 dernières années. Depuis 1992, avènement des premiers réseaux sociaux, leur production s’emballe et devraient doubler d’ici 2018. Il faut compter que 90% des data viennent des réseaux sociaux; il appartient aux organisations de bien choisir les outils qui permettront d’intégrer puis d’analyser ces données multi-sources et hétérogènes : on appelle cet ensemble de solutions « Big Analytics » en référence au domaine de l’Analytique de données, cependant appliqué au Big Data.

Datalake, kézako ? C’est un lac virtuel de données, un mode de stockage optimisé dans le Cloud. Il a pour finalité d’accueillir de larges gammes de données brutes aux formats disparates et potentiellement ROIstes, ce qu’on appelle données utiles. Chaque entrée de donnée dans le datalake fait l’objet de transformation, et passe au crible d’une nomenclature que l’on appelle Data gouvernance afin d’être parfaitement classifiée, identifiée et retrouvée. Le Chief Data Officer se porte garant de la gestion du datalake et de sa scalabilité. Il faut veiller à ce que le coût de cette réserve de données ROIstes et leur intégration dans les infrastructures de l’entreprise, n’augmentent pas avec la hausse du volume de données intégrées (qui devrait être continue, Big Data oblige) : ni en coût d’applications, ni en coût d’effectif. Autrement, le risque est de transformer rapidement le datalake en Data swamp (marécage).

Marécage de données

En 2008, dans la Silicon Valley, LinkedIn et Facebook, très consommatrices de data, sont confrontées à des problématiques techniques et métiers inédites. Deux ingénieurs devaient marketer leurs besoins de compétences, à la confluence de l’IT, du marketing et de la modélisation statistique. Ainsi est né le métier le « plus sexy du 21e siècle » selon le Harvard Business Review: Data scientiste. En quoi est-ce sexy ? Comme un alchimiste qui transforme le banal acier en or, le data scientist est l’ingénieur qui croise des informations utiles du Datalake, afin de découvrir de nouvelles pistes de revenus, de services ou de produits pour l’entreprise (ce qui reboucle avec la data « nouveau pétrole »…).

La news qui court sur les blogs de Data science : « Un data scientiste ne peut rien faire à moins d’une rémunération de 500 k$ » (source: O’Reilly, influenceur|data scientist US). Info ou intox ? Tout dépend sans doute de la zone d’emplois considérée. En effet, les pays occidentaux sont en quête permanente de data scientists pour le business, les profils possédant une  triple formation étant (encore) rares.

En tout état de cause, une fois que la data est passée entre les mains du data scientiste, la donnée utile devient activable pour générer du ROI; cette phase devient l’affaire du métier de la stratégie et du data-driven marketing.

Il y a 10 ans, UPS a mené une étude visant à optimiser le trajet de ses véhicules, un enjeu de taille pour le transporteur. D’innombrables paramètres ont été pris et analysés. L’étude a révélé que certains trajets, en tous points comparables à d’autres, s’avéraient plus économiques et plus rapides sans que l’on comprenne au juste pourquoi. Le mystère fut éclairci le jour où les scientistes ont croisé les trajets et le nombre des virages à gauche ! Chaque virage à gauche face au trafic coûte un temps d’attente non négligeable où le moteur consomme du carburant en tournant au ralenti. Durant l’année 2011, l’application d’une stratégie de minimisation des virages à gauche a ainsi permis d’économiser $ 30 millions en dépenses de carburant et d’éviter un rejet de CO2 équivalent à 5 300 voitures.

Data Analytics : Google détient sans doute le plus universel des outils de data analytics avec Google Analytics, et ses diverses briques Google Data Studio,… Son champ se limite  toutefois à la mesure d’audience des sites web et la mise en perspective de KPIs imposés.

Pour explorer les données massives, la limitation dans le périmètre de données ou dans la technicité de son outil de découverte et d’analyse n’est pas conseillée. Il est plutôt recommandé de choisir une solution en fonction de son agilité et sa modularité sans couture. Réactivité, visualisation et interactivité de la donnée dans l’outil sont les leitmotiv des data scientists.
Data analytics
Bien qu’il n’existe pas d’outil universel, selon l’usage que l’on souhaite en faire, avancé ou non, l’outil analytique du futur accentuera l’autonomie de l’expert mais aussi du simple consommateur de données par renforcement de l’intelligence artificielle à tous les stades de l’exploration et de l’analyse. La programmation et le code ne sera plus. De même, l’outil optimal procurera  l’appropriation instantanée et le partage du sens des données par tout un chacun via le renforcement de l’UX design, la visualisation, et le design des données (voir Datavisualisation et Datadesign plus loin).

Data worker : il surveille les mesures de ROI et procède à leur analyse descriptive pour la décision. Les indicateurs sont majoritairement remontés dans un dashboard alimenté par des KPIs (Key Performance indicators); ceux-ci sont sélectionnés pour leur pertinence par le data scientist. A dire d’expert, un dashboard moderne se plugge sur les bases de données demandées et ne restreint ni l’accès aux données, ni les axes d’analyse. On parle de consommation de donnée.

Jetpackdata fait partie des outils analytics en Plug&play. Il permet la consommation instantanée de donnée, a fortiori pour non-techniciens. Il suffit de connecter une base de données actionnables ou un fichier pour obtenir en quelques secondes des axes d’analyses et des objets graphiques suggérés, sans programmation.

3 – La data visualisation et le data design

Grands consommateurs de données, nous restons… L’utilisateur connecté ne se passe plus d’informations, précises, ultra-localisées, en temps réel…Pourvu qu’elles soient d’une approche et d’un usage immédiats ! Exit les feuilles de calcul hermétiques au premier coup d’oeil.

  • La météo… On se contentait de regarder le ciel ou de suivre le bulletin météo. Aujourd’hui, il existe plus de 250 applications mobiles pour la météo dans Google Store : informations d’heure en heure, données géolocalisées, mise à jour en streaming… De même pour la qualité de l’air avec AirParif, celles pour l’hygrométrie pour les viticulteurs, et même la météo pour son hamster.
  • Pour se géolocaliser en territoire inconnu, se rendre d’un point A à un point B sans embouteillage, repérer des amis de communauté dans la foule, connaître le déroulement d’un match, savoir s’il a fait son quota de pas dans la journée, etc. Beaucoup d’applications analysent la donnée en temps réel et la restitue aux utilisateurs pour une plus grande hauteur de vue, leur permettre d’être plus averti avec plus d’informations croisées.
  • Un évènement dans un pays lointain en vidéo ? On peut désormais voir par soi-même et se faire une opinion sur à peu près tout, comme si on vivait en plusieurs endroits à la fois. Il faut désormais compter avec le pouvoir d’ubiquité et la recherche d’informations en flux continus. Tous types d’infos nous sont servis sur nos petits écrans, du réveil au coucher.
Datavisualisation (dataviz pour les familiers) : discipline et science, et maintenant, ensemble des techniques et outils de représentation visuelle de vastes ensembles de données. Ce sont des techniques hautement privilégiées par des data scientistes, dataworkers, datajournalistes, scientifiques, statisticiens, ingénieurs, chercheurs en sciences de l'information, spécialistes du marketing,... L'objectif est d'accéder rapidement à l'interprétation des données et les tendances qui s'en dégagent. Comment ? Par l'immersion de la représentation visuelle, ainsi qu'une mise en perspective des données, tout en étant conforté par l'exhaustivité de celles-ci.

Data design : la société Dataveyes (Caroline Goulard, CEO) met l’interprétation de la donnée au service de l’humain au travers d’interfaces designés pour la meilleure relation homme-données. Leurs créations contribuent à la création d’un environnement « data-friendly » et permettent d’avoir une approche inédite de la donnée.

Dat‘art : maints sites internet mettent en partage des datavisualisations inédites, des oeuvres à part entière…Qu’en pensez-vous ?

Alors, intéressé(e)s de savoir vers quelles technologies et dans quels environnemenst les sociétés tendront afin d’interpréter toutes ces données présentes et à venir ?

Pour en savoir plus : deux sites que je vous recommande de visiter. Fondamentalement différents, ils n’ont en commun que la disruption qui les caractérise individuellement : Jetpackdata (merci à Shankar Arul, co-fondateur) et Dataveyes (merci à Benoît Vidal, co-fondateur et auteur dans Medium).

Data Analytics design

Dataveyes Benoît Vidal, co-founder

Data Analytics Datavisualisation

Shankar Arul, CEO Jetpackdata (ancien de chez Apple, et Groupon)

Crédits photos: France3 | Robert Scoble (Data farms Facebook) | TimoElliott.com | Brandwatch | 365Score | Flightradar24 | S. Lun Sin| Uber Lightbeam | Hewlett Packard | Reddit Dataisbeautiful |Dataveyes | Jetpackdata|

Image couverture : Lightbeam Uber

Par | 2017-12-16T14:24:26+00:00 vendredi, 1 décembre, 2017|Catégories : Conférences, E-Business, E-commerce, Web Analytics & Smart Data|Mots-clés : |

À propos de l'auteur :

J’envisage toujours de faire un pas de côté pour changer de perspective et parfois la perspective d’autrui. La data, datastory et toutes formes de datavisualisation sont au coeur de mes intérêts. Moitié cartésienne, moitié artiste. Mon adage: « Ce n’est pas parce que les choses sont difficiles que nous n’osons pas, mais parce que nous n’osons pas qu’elles sont difficiles ». – Sénèque