Cathy O’Neil : les algorithmes risquent-ils de créer un monde arbitraire et injuste ?

le 19/01/2017 par blog-usi

« Nous créons des modèles mathématiques tous les jours ». C’est ainsi que Cathy O’Neil débute son talk "Weapons of Math Destruction" à l'USI 2016. Chacun de nos choix, de ce que nous mettons dans notre panier lors d’une session shopping à nos préférences amoureuses, est soumis à un processus mathématique que nous appliquons inconsciemment.

Les modèles mathématiques sont partout. Et depuis l'apparition du Big Data, ils s’imposent comme outil statistique indispensables aux institutions publiques ou grandes entreprises. Mais les chiffres disent-ils toujours vrai ?

Des résultats approximatifs

Pour établir des modèles fiables, les données sont la clé. Mais disposer de la data nécessaire au moment de la conception d’un algorithme n’est pas toujours évident. Résultat, les mathématiciens doivent parfois avoir recours à des données approchantes mais inexactes ou imprécises. Cette logique du « faire au mieux » entraîne donc l’élaboration de modèles erronés.

Plus préoccupant encore, les algorithmes qui n’utilisent qu’une partie des paramètres nécessaires à la création d’un chiffre juste. Selon Cathy O’Neil, tout data scientist devrait régulièrement s’interroger sur son approche éthique des données. « Notre modèle est-il juste ? », « Recevons-nous des retours et conseils d’amélioration ? », « Sommes-nous aveugles aux externalités ? » sont autant de questions que devraient se poser les mathématiciens. Une introspection nécessaire pour éviter des modèles aux résultats trompeurs comme celui employé pour établir le classement des meilleures universités des États-Unis. L’algorithme ne prenant pas en compte le coût de la scolarité dans les critères d’évaluation, les universités s’attachent à améliorer les autres points de notation tout en continuant à appliquer une politique financière qui limite l’accès à ces lieux d’élite à quelques privilégiés ou condamne les autres à l’endettement. Conséquence, les pauvres ne peuvent accéder aux grandes écoles.

A lire : Reproduire, est-ce vraiment créer ? Le cas du Machine Learning

Des armes de sélection

« Les modèles mathématiques sont utilisés comme des armes » déplore Cathy O’Neil.

Intimidés par le langage mathématique, les populations ne se sentent pas habilitées à contredire le résultat énoncé par une autorité scientifique. C’est en s’appuyant sur cette peur et surtout sur cet illettrisme mathématique que « l’utilisation de modèles injustes reste possible et impunie » selon la mathématicienne.

Le Teachers Value-added modeling en est l’exemple parfait. Supposé permettre l’amélioration du système éducatif américain en identifiant les professeurs incompétents, ce modèle se révèle en réalité inefficace et stigmatisant. Après avoir étudié les résultats scolaires d’un élève, les chercheurs prédisent ses notes aux prochains examens, partant du principe qu’un élève obtient une moyenne relativement similaire d’année en année. La note obtenue par l’élève est ensuite comparée à la prédiction. La différence de point entre les deux est alors attribuée à l’enseignant. En cas de résultat négatif, la capacité et la qualité d’enseignement du professeur sont remises en cause sans prendre en compte la courbe de progression ou de régression possible de l’élève ou des facteurs extérieurs à l’école comme la vie de famille ou la condition physique et mentale.

Un algorithme douteux basé sur des anticipations hasardeuses qui entraîna l’humiliation - les résultats ayant été publiés en 2012 dans le New York Times- et le renvoi de nombreux enseignants jugés mauvais par des proviseurs soucieux de redorer l’image de leur établissement. Un modèle à la formulation opaque et au processus inexpliqué - personne n’étant autorisé à étudier le code à l’origine de l’algorithme - qui n’est malheureusement pas un cas unique et favorise également les comportements discriminatoires et excluants.

Une spirale infernale cause d’injustices

Le Big Data devient petit à petit l’élément déclencheur d’un cercle vicieux des inégalités. En raison d’une base de données incomplète et influencée par des problématiques subjectives comme le racisme, nombre des algorithmes utilisés, notamment dans les institutions publiques américaines, établissent des résultats biaisés et stéréotypés à l’image de l’indice de récidivisme. Intégrant des paramètres comme la durée de la première peine purgée, l’âge ou les origines sociales, l’algorithme définit la probabilité qu’a un détenu de récidiver aux États-Unis. Si celle-ci est jugée trop élevée, la peine du détenu est rallongée. Un système de punition à l’avance qui repose non pas sur des chiffres objectifs mais sur des prédictions dérivées de statistiques artificiels et faussés.

Aux États-Unis, même en cas de profil similaire, « les noirs sont considérés comme plus à risques que les blancs » affirme Cathy O’Neil. La mathématicienne s’inquiète de cette dangereuse dérive identitaire qui transforme la race en donnée et affirme que « les armes de destruction mathématiques augmentent les inégalités et menacent la démocratie. »

Optimiste, Cathy O’Neil affirme néanmoins que nous avons toutes les cartes en main pour inverser la tendance : « la technologie ne changera pas le monde, c’est à nous de le faire ».

A lire :