IA et Big Data : des plus et des moins


Cassiopée Cunibil et Benoît Rittaud

L'intelligence artificielle et les Big Data occupent le devant de la scène scientifique depuis plusieurs années. Ces deux domaines ont vocation à interagir, pour le meilleur… et parfois pour le pire si l'on n'y prend pas garde.

Discriminations algorithmiques

Joy Buolamwini, du MIT, et Timnit Gebru, du laboratoire de recherche Microsoft de New York, ont étudié la précision de logiciels de reconnaissance faciale de trois grandes compagnies du secteur (IBM, Microsoft et Face++). Ceux-ci ont des résultats comparables, pour le meilleur comme pour le pire (Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification, Proceedings of Machine Learning Research 81, 2018). Alors que le taux de réussite des trois logiciels tourne autour de 97 % pour une personne à la peau claire, il tombe à 83 % pour quelqu’un à la peau plus sombre. Le même genre d’écart se produit pour distinguer les femmes des hommes. Le croisement des deux caractéristiques est éloquent : près de 100 % de succès pour un homme blanc, à peine 70 % pour une femme noire !

 

Un peu court pour accuser les concepteurs de racisme ou de sexisme, mais suffisant en revanche pour rappeler qu’une intelligence artificielle est précisément… artificielle, et peut donc reproduire à sa manière certains biais, notamment dans la manière dont nous choisissons les données servies à une intelligence artificielle pour apprendre.

 

Des données intelligentes

Le développement des Big Data a remis sur le devant de la scène les algorithmes d’intelligence artificielle. Elles en constituent même le terreau puisque les nouvelles IA, qui s’appuient sur le principe du machine learning, se nourrissent de données massives.

 

Mais l’IA est également un outil pour l’exploitation des Big Data. Ces dernières ne sont pas uniquement constituées de données comportementales qui vont être croisées à des fins commerciales. Séquençages du génome, accélérateurs de particules, astronomie sont des domaines où le flot des données est sans commune mesure avec l’observation des activités humaines. Un dossier du numéro 181 de Tangente et un autre, plus technique, dans Tangente SUP 77–78, sont d’ailleurs consacrés aux mathématiques des Big Data.

 

L’IA permet d’optimiser les algorithmes qui vont stocker, classer, analyser ces grands volumes de données. Voire d’y détecter des phénomènes que l’on n’avait même pas imaginé y chercher. Dans les méthodes basées sur les statistiques, les algorithmes d’IA pour interpoler, ou extrapoler conduisent à l’élaboration de modèles prévisionnels adaptatifs qui s’affinent en se confrontant aux données réelles.

 

Prévenir les résiliations

Le marketing a pour but d’attirer de nouveaux acheteurs, mais aussi d’éviter qu’ils ne partent. Pour éviter de perdre une partie de sa clientèle, SFR a mis en place il y a quatre ans une stratégie de suivi de ses clients selon les pages visitées et les mots clés saisis. À l’aide de ces données, l’opérateur de téléphonie mobile s’est montré capable, selon Les Échos, d’anticiper plus de 80 % des résiliations d’abonnement potentielles. En entrant en contact avec ces clients avant que leur décision ne soit prise pour leur faire une offre ciblée, SFR parviendrait à retenir trois quarts des départs.

 

C’est là un exemple d’application du marketing prédictif, qui doit permettre d’anticiper, à l’aide d’algorithmes d’analyse de données massives, non pas un comportement statistique d’une masse de clients mais le comportement individuel de certains d’entre eux. Un champ prometteur, qui doit bien sûr s’accompagner d’une réflexion éthique sur ce qui est légitime de connaître ou non de ses clients.