Bonnes pratiques et expertises IT
Rechercher

Big Data, une affaire de statistiques

L’Insee s’est intéressé aux Big Data, dans un numéro spécial de sa revue Économie & Statistiques. En particulier, puisque c’est l’une des missions de l’Insee, dans le domaine de la production des statistiques. Philippe Tassi, DGA de Mediamétrie, propose une intéressante synthèse de la genèse des Big Data en matière d’études statistiques.

Il rappelle notamment que le Big Data n’a rien de nouveau : « la collecte de données nombreuses, et même exhaustives, ne date pas de l’ère numérique ; cette activité a suivi de près l’apparition de l’écriture, qui était une condition nécessaire. La majorité des historiens et archéologues considèrent que celle‑ci est apparue en Basse Mésopotamie, l’actuel Irak, environ 5 000 ans avant notre ère. » Avec, à l’époque, deux applications : l’astronomie et le comptage des population. En Chine, il existait même l’ancêtre de nos Chiefs Data Officer, baptisés à l’époque les « directeurs des multitudes ». De même, l’intelligence artificielle est un concept très ancien : « Il serait peut‑être possible de remonter à Babylone ou l’Empire chinois, tant il semble naturel d’avoir très tôt cherché à modéliser le comportement du cerveau humain et à représenter l’homme comme une machine pour pouvoir ensuite concevoir des machines apprenantes », rappelle Philippe Tassi.

En matière de statistiques, le XXème siècle a plutôt privilégié les méthodes d’échantillonnage, notamment pour les sondages qui fleurissent régulièrement, alors que les recensements exhaustifs étaient plutôt rares, car très coûteux. Pour Philippe Tassi, « depuis la fin du 20e siècle et le début du 21e, la convergence numérique a favorisé le recueil automatique de données observées sur des populations de plus en plus grandes, créant des bases de données avec une masse croissante d’informations, annonçant par conséquent le retour en grâce de l’exhaustif. En outre, le passage au numérique a permis de mettre sous la même forme des informations historiquement distinctes et hétérogènes. » Outre les problématiques de confiance et de conformité réglementaire, se pose la question de la confidentialité des données, en particulier des données personnelles. « On ne peut pas faire l’économie d’une certaine vigilance, car les Big Data et leurs usages peuvent avoir des effets sur les individus, leurs libertés et la préservation de leur vie privée », estime Philippe Tassi. C’est tout l’enjeu de la protection des données personnelles. Il existe principalement quatre moyens de les préserver : l’anonymisation (retirer de la base de données toutes les variables permettant d’identifier une personne particulière), la destruction ou l’agrégation de données, l’obscurcissement des données (préserver la confidentialité des données en les « altérant » de façon volontaire) et la « confidentialité différentielle. » Cette approche « repose sur des hypothèses probabilistes et statistiques. L’idée est de quantifier le risque d’une éventuelle faille de confidentialité, tout en mesurant l’effet d’une protection efficace des données sur la vie privée, en termes statistiques », résume Philippe Tassi.

Ce numéro d’Économie & Statistiques aborde également les apports du Big Data pour les enquêtes de conjoncture, notamment en se basant sur les Google Trends, la possibilité d’exploiter les données issues de la téléphonie mobile pour mesurer le tourisme international ou estimer une population résidente, ou le recours au Big Data pour mieux mesurer l’audience de la télévision. Mais tout est loin d’être parfait. Par exemple, précise François Robin, « Le modèle Google Trends est parcimonieux et stable, en termes de sélection et de coefficients. Cependant, les résultats des modèles utilisant les Google Trends sont sensibles à l’échantillonnage opéré par Google pour leur construction. Néanmoins, leur utilisation nécessite une analyse préalable des thèmes de recherche adéquats, l’automatisation de la correction des valeurs aberrantes et la multiplication des recherches de termes identiques pour en fiabiliser les résultats. »

De même, concernant l’apport du Big Data pour établir des prévisions macroéconomiques, « les résultats sont toutefois assez mitigés, reflétant à la fois la simplicité relative des modèles utilisés et les limitations importantes en termes de qualité, de forme, de taille d’échantillon et de leur nature qualitative », souligne Pete Richardson, consultant chez Leewellyn Consulting. Quant au comptage de population résidente ou du tourisme, c’est également complexe. En théorie, « les données issues de la téléphonie mobile fournissent des enregistrements avec une résolution spatiale élevée et à une haute fréquence temporelle. Elles sont considérées comme une source prometteuse pour mesurer la mobilité des personnes et la fréquentation des territoires à des niveaux spatiaux ou temporels très fins. Leur utilisation à des fins statistiques soulève un certain nombre de questions (qualité des informations collectées, représentativité des données disponibles, retraitements nécessaires) », expliquent les auteurs de l’étude sur ce sujet. Ils ont constaté que les estimations de population résidente à partir de téléphonie mobile s’écartent significativement de la population de référence fournie par la source fiscale. Pour les auteurs, « l’exploitation des données mobiles pour des comptages de population soulève plusieurs questions méthodologiques. La modélisation de la zone de couverture des antennes, le choix de la maille d’analyse et la localisation des événements sur cette maille jouent un rôle déterminant, tout comme les méthodes. » Quant à la mesure d’audience, c’est, là encore, un domaine où beaucoup reste à faire : « Les données massives ne doivent pas être vues comme une alternative aux mesures d’audience traditionnelles basées sur des enquêtes par sondage, mais comme une opportunité de les améliorer », concluent les analystes de l’Insee.

236 biblio insee

Big Data et Statistiques, Economie et Statistique, n° 505-506, avril 2019.

Best Practices propose des publications payantes.
Comparez nos différentes offres d'abonnement.

Laurence Essirart

Laurence Essirart

Nos Ouvrages

  • ERP - 145 réponses aux questions de votre direction générale

    Les ERP constituent encore la colonne vertébrale des systèmes d’information dans la plupart des moyennes et grandes entreprises. Malgré leur degré de maturité technologique, leurs performances métiers et la puissance des écosystèmes, les ERP suscitent encore de nombreuses questions de la part des DSI, qui ne trouvent pas toujours aisément de réponses.

  • La cybersécurité 
en 250 questions

    Les cyberattaques n’ont jamais occasionné autant de dégâts dans les entreprises. Et les perspectives n’encouragent pas à l’optimisme. Comment nmieux se protéger ? Ce guide pratique regroupe les 250 questions que doivent se poser les responsables sécurité, les DSI et les directions générales. Avec des
    réponses concrètes…

  • IT Benchmark
Rapport annuel - 2019

    La Shadow Information, ensemble d’informations que l’on ne trouve pas dans les médias, mais qui présentent une valeur pour la gestion opérationnelle de l'écosystème de l'IT. Ces contenus sont bien sûr accessibles à tous, mais cela demande énormément de temps et de ressources pour les trouver, les lire et se les approprier : les équipes de IT Benchmark le font pour vous !

A ne pas manquer

  • Comment rater...
sa génération de leads

    Il existe un lien étroit entre le dynamisme commercial d'un éditeur de logiciels ou d'un intégrateur et la qualité des leads dont disposent les commerciaux pour maintenir leur performance. Mais il est très facile de ruiner votre performance commerciale.

  • Services managés : où en sont les entreprises françaises ?

    Best Practices a réalisé une enquête auprès des entreprises et organisations publiques françaises. Avec plusieurs objectifs : cerner les enjeux associés aux systèmes d’information, mesurer les usages des services managés les budgets associés.

  • Pour en savoir plus sur l’externalisation

    Pourquoi externaliser ? Quels sont les avantages et les inconvénients ? Comment définir les règles du jeu ? Quels sont les points de vigilance ? Quelles sont les dix questions que posent systématiquement les directions générales aux DSI ?

Best Practices

Informations

REMARQUE ! Ce site utilise des cookies et autres technologies similaires.

Si vous ne changez pas les paramètres de votre navigateur, vous êtes d'accord. En savoir plus

J'ai compris