Bien interpréter les données statistiques


Hervé Lehning

Derrière l'exploitation des ressources gigantesques que constitue le Big Data, on trouve des algorithmes fondés sur les statistiques et les probabilités. Cela explique les succès comme les échecs de cette technique.

Comme son nom l’indique, le Big Data concerne d’énormes quantités de données. A priori, ces données massives sont passives. Sans algorithme de traitement, elles n’apportent rien. Concrètement, comment ça marche ?

Suivre une épidémie de grippe

En 2009, à partir du nombre de requêtes concernant les symptômes de la grippe (« fièvre », « courbatures », « grippe »…) dans un endroit donné, et de leur évolution dans le temps comme dans l’espace, Google a pensé pouvoir prédire l’évolution d’une épidémie de grippe et lancé l’outil Google Flu Trends. Elle l'a retiré quelques années plus tard car les prévisions de Google se sont révélées fausses dans 90 % des cas ! Les raisons sont multiples. Déjà, bien des gens confondent rhume et grippe, ce qui fausse leurs requêtes. D’autre part, ce n’est pas la distance géographique qui compte, mais la distance en temps de transport. Ainsi, Paris est plus proche de Nice que ne l’est Digne, car Nice et Paris sont reliées par avion, Nice et Digne seulement par le train des Pignes et par la route. En résumé, Google a démontré, sans le vouloir, qu’aussi massives soient-elles, des données ne sont rien si elles ne sont pas choisies et exploitées par un algorithme pertinent. Il semble qu’il faille pour le moins ... Lire la suite