Comment nos données personnelles sont-elles exploitées sur le web? Le Big Data est-il utilisé pour nous traquer? Comment cette manne d’informations peut-elle servir, entre autres, à traquer la criminalité, sujet redevenu d’actualité suite aux attentats de Charlie Hebdo, en ce funeste 7 janvier 2015?

Ce sont les questions auxquelles tente de répondre le reportage de #specialinvestigation intitulé Big Data: Les nouveaux devins, diffusé le 27 janvier 2014.

⇒ L’objectif de ce post est de vous proposer une autre lecture du documentaire. Oui le Big Data peut faire peur, notamment avec les derniers scandales révélés par Edward Snowden. Il convient d’être vigilant sur les impacts que cela peut avoir sur nos vies, de ne pas faire du Big Data un fourre-tout, et de faire preuve de pédagogie sur un sujet aussi complexe que nouveau!

Le reportage, d’une durée d’une heure, aborde les utilisations du Big Data notamment en matière de consommation / politique / sport et criminalité.

Special Investigation

Big Data: le nouveau diable?

L’introduction du documentaire présente le Big Data comme étant ‘le traitement massif de données personnelles‘. Or, comme je l’ai défini dans un article de mon blog, le Big Data est de manière plus générale le traitement massif de données disparates et volatiles. A aucun moment le Big Data ne peut se réduire à l’exploitation des données personnelles! Cette approximation donne le ton du documentaire.

Par ailleurs, selon la vidéo, les GAFA (Google Amazon Facebook Apple) détiennent 80% des données personnelles mondiales. L’information est-elle vérifiée? On retrouve un chiffre similaire dans une enquête du Sénat sur la gouvernance Internet: ‘songeons que 80% du stock des données sont aux mains de quatre entreprises, les fameuses GAFA‘, mais là encore on perd la notion de ‘personnel’. Pas de source citée et impossible de trouver une quelconque information à ce sujet sur le net (si vous en trouvez faites-moi signe!) pour comprendre le mode de calcul.

Big Data: le nouveau pétrole pour le commerce?

Tous nos comportements seraient espionnés. Deux exemples sont donnés dans ce reportage pour affirmer cela:

  • Le retargeting (technique de marketing basée sur l’enregistrement de cookies qui permet d’afficher sur un site A des publicités ciblées sur des produits consultés sur un site B)
  • Le marketing géolocalisé (utilisation de votre localisation pour vous envoyer des publicités ciblées sur votre mobile).

Par le biais de ces deux techniques – qui sont des réalités que vous avez pu constater par vous-même – et d’une interview de la start-up française KXEN (qui présente un algorithme permettant de suivre le parcours de clients au moyen des données de leurs Cartes Bleues), un amalgame est fait:

On vous trace via vos données de Cartes Bleues! Et si c’était le cas, il y aurait de quoi avoir peur!

Mes données de Carte Bleue sont-elles tracées?

Il faut savoir qu’il est interdit de faire transiter et stocker les données de Cartes Bleues qui sont absolument confidentielles – en France tout du moins, je ne connais pas la législation outre Atlantique. Elles sont anonymisées pour pouvoir être utilisées dans un algorithme (c’est-à-dire, pour faire simple, qu’on leur affecte un identifiant unique totalement différent du n° de carte bancaire, et c’est ce n° qui est exploité ici). On sait donc que M.X, détenteur de la CB n° N, a fait des achats dans tel et tel magasin, mais on ne sait pas qui est M. X, et encore moins ses coordonnées bancaires; il se peut d’ailleurs que ce soit Mme X qui ait utilisé la carte en question!

Qu’y a-t-il vraiment sous l’appellation de marketing géolocalisé?

Là encore ce ne sont pas vos données bancaires! Il faut plusieurs conditions pour que cela fonctionne:
– que vous ayez communiqué votre n° de portable au marchand
– que vous ayez accepté de recevoir des communications commerciales (le fameux ‘opt-in’)
– que vous ayez téléchargé l’application du marchand ou l’application Wallet (regroupement de marchands) pour recevoir des push ciblés. Il est techniquement possible que vous receviez un SMS ciblé, mais c’est tellement intrusif qu’en France les marques sont frileuses à le faire.
– que vous ayez coché que vous étiez intéressés par les produits vendus par la marque (des chaussures par ex) dans le cas d’une application de type Wallet. Si c’est une marque, elle va regarder dans votre historique d’achat de cette marque si vous avez acheté des chaussures par ex.

En voici l’illustration:

Marketing géolocalisé

⇒ Il y a de fortes chances que si vous en arrivez là, vous serez intéressés à recevoir ce type d’offre promotionnelle! Et ce mécanisme n’est absolument pas expliqué dans le documentaire.

Obama réélu grâce au Big Data?

Selon le documentaire, Obama a mis sur pied en 2012 une Data Campagne dont le principe est le suivant: cibler, en fonction du comportement sur Internet et notamment sur les réseaux sociaux, les individus abstentionnistes favorables à Barack Obama, et lancer une campagne de porte-à-porte. Par exemple, cliquer sur le bouton J’aime sur une publication prônant le programme électoral d’Obama indiquera que vous êtes plutôt de son côté. Très bien. Mais comment savoir que vous êtes abstentionniste? Là l’enquête ne le précise pas…

Plus fort, le documentaire laisse entendre qu’Obama a gagné l’élection présidentielle de 2012 grâce à cette pratique. Le lien de cause à effet est tout à fait discutable! Pas de population témoin ici pour mesurer l’écart de points obtenu…

Les Français se sont inspirés de cette pratique et, en 2012 également (donc avec très peu de recul), le fils de François Hollande met sur pied une technique similaire. Selon lui, sur 14 abstentionnistes ciblés et vus, 1 est allé voter (soit un taux de réussite de 7%). Faisons un rapide calcul (approximatif, mais c’est pour avoir les ordres de grandeur):
Selon les chiffres du gouvernement, il y a eu 9M d’abstentionnistes. Combien de personnes ont pu être vues (et non pas juste ciblées, car il faut aussi que 1. la personne soit présente à son domicile et 2. elle ouvre la porte)? L’image du graphique présenté dans la vidéo montre une moyenne de 250 portes ouvertes par jour, sur deux semaines d’entre-deux tours, soit 3 500 portes ouvertes. Avec un taux de réussite de 7%, on obtient donc péniblement 245 voix supplémentaires. Ca ne pèse pas bien lourd sur les 1,140 M de voix d’écart entre Hollande et Sarkozy!

Big Data: nouvel eldorado des paris sportifs?

Selon le documentaire, le site numberfire, qui totalise plus d’1M de vues / mois, permet de prédire avec succès les résultats de 3 matchs sur 4. Dans 70% des cas, ses prédictions seraient meilleures que celles des journalistes sportifs.

C’est tout à fait possible, et de nombreux cas dans le monde du pari sportif sont explicités en détail dans le livre Big Data – La révolution est en marche de Kenneth Cukier, que je suis en train de lire. Dommage que dans le reportage il soit montré pendant de longues minutes un cas où les prédictions du site sont totalement fausses!

Sauvez Charlie grâce au Big Data?

Le sujet est d’actualité. Le reportage, qui date d’il y a un an, évoque justement l’enquête concernant l’attentat du Marathon de Boston en avril 2013 qui a fait 3 morts et plus de 260 blessés. Les 2 suspects auront pu être identifiés grâce à la vidéo-surveillance et à la montagne de vidéos amateurs, mais le logiciel de reconnaissance faciale n’a pas réussi à mettre un nom sur leur visage. Le Big Data a donc échoué dans ce cas présent.

2nd exemple: Memphis, aux US, où la solution Blue Crush, développée par IBM, a été mise en place depuis 2006. La société se targue d’avoir fait baisser la criminalité de 30%, en analysant l’ensemble des données liées à la criminalité dans la ville et en préconisant aux forces de l’ordre des lieux et des dates pour faire une patrouille. L’impact de la communication publicitaire autour de ce nouveau dispositif n’est quant à lui pas mesuré, et a dû très certainement dissuader certains de passer à l’acte… Cette nouvelle technique a surtout contribué à licencier 25% des effectifs! Bref, il y a encore du travail.

En conclusion: les grands du net sont les méchants

Une 1ère conclusion qui invite à légiférer, et cela va sur la bonne voie, même si c’est un chantier ô combien épineux.
Une 2ème conclusion: nous sommes fichus car les grands du net ont l’argent et le pouvoir (les patrons du net sont très proches de nos dirigeants, ce qui somme toute est plutôt rassurant!)…!

Ma conclusion: un reportage à sensation qui cumule les imprécisions!

La diabolisation du Big Data et les allusions non masquées à Big Brother sont très exagérées. Les exemples sont soit imprécis (ex sur les commerçants), soit peu probants (politique), soit inefficaces (sport et criminalité). Le documentaire manque de rigueur. D’ailleurs très peu de résonance sur la twittosphère, et peu d’articles un peu poussés sur le sujet.

Cependant le phénomène de la massification des données et la préservation des libertés individuelles sont un réel sujet qui doit être traité de manière pragmatique. Nous sommes dans un monde qui évolue à toute vitesse, nous profitons des avancées technologiques et numériques, nous touchons du doigt des avancées médicales inégalées… Ne diabolisons pas mais regardons ce changement tel qu’il est, apprenons en marchant et appréhendons le Big Data de manière intelligente!

N’hésitez pas à me faire part de vos commentaires, je serais ravie d’échanger avec vous!