Donner du « bon sens » à l’Intelligence Artificielle - Yann LeCun

Il est l’une des références mondiale en la matière. « VP et Chief A.I. Scientist » chez Facebook, et professeur à l’université de New York, Yann LeCun, 57 ans, est l’inventeur du deep learning****, une méthode qui pour progresser devra relever un nouveau défi : celui de l’apprentissage non-supervisé.

https://www.youtube.com/watch?v=2WiPx6thH2E&t=799s

Avec son statut de rock-star de l’I.A. et les 1 800 personnes venues l’écouter dans l’amphithéâtre du Carrousel du Louvre, c’est peu dire que Yann LeCun revient de loin. Il y a encore dix ans, peu de gens avaient entendu parler de lui. « Et encore moins de réseaux neuronaux convolutifs », sourit-il aujourd’hui. Cette technique date pourtant de la fin des années 1980. C’est pourtant à la fin des années 1980 qu’il a commencé à mettre au point cette technique. « Mais les programmes étaient longs à écrire, les ordinateurs très lents, il y avait un côté laborieux… Et puis internet est arrivé : tout le monde est parti sur ce créneau », dit-il. L’apprentissage automatique n’était qu’une sorte de curiosité SF vintage.

Autre temps, autres mœurs…

Aujourd’hui, l’I.A. est dans toutes les bouches. Et si le terme « réseaux neuronaux convolutifs » n’a pas vraiment dépassé le stade des initiés, tout le monde a entendu parler de deep learning, l’appellation grand public. Surtout, tout les grandes entreprises de la tech l’utilisent : Google, Apple, IBM, Microsoft, Adobe, Alibaba, Baidu, Nvidia, Facebook… Au point que Mark Zuckerberg a décidé de le nommer en 2013 à la tête du FAIR, le pôle de recherche fondamentale sur l’Intelligence Artificielle, afin de développer sa recherche sur le sujet. La méthode a, il faut dire, beaucoup progressé. En 2011, le taux de reconnaissance d’objets dans une image était de 75 %, ce qui représentait un taux d’erreur de 25 %. Aujourd’hui, en 2018, on en est à 97 % de réponses justes. Même lorsque la lumière est pauvre, l’image floue ou coupée. « Et ce n’est pas fini. Car avec le Big Data, l’amélioration des machines et la pratique de la recherche ouverte, les résultats s’affinent quotidiennement », indique le Français.

Comment ça marche ?

Mais de quoi parle-t-on exactement quand on parler de deep learning, ou d’apprentissage automatique, ou de réseaux neuronaux convolutifs ? Sur le papier, rien de très compliqué : « Une technique qui permet à la machine de comprendre le monde qui l’entoure, par exemple, de reconnaître le contenu d’une image, le sens d’un texte ou de décrypter le langage parlé », résume Yann LeCun.

Pour l’expliquer, le chercheur nous faire revenir aux années 1960, aux prémices de l’apprentissage supervisé. L’idée est alors de comparer des assemblages de pixels. Cela en nourrissant un programme de milliers d’images, par exemple des images de voitures, en l’informant pour chaque image qu’il s’agit bien d’une voiture. « La magie du système c’est qu’au bout de quelques temps, celui-ci comprend ce qu’est une voiture et est capable de reconnaître de nouvelles, sur des images cette fois non étiquetées. »

Le deep learning découle de cette technique. Sauf que l’idée ici n’est plus de comparer des pixels mais de déconstruire l’information pour baser son apprentissage sur de caractéristiques plus abstraites, comme des valeurs de pixels. Pour reconnaître une personne sur une photo, par exemple, le programme décompose l'image : d'abord la silhouette, puis le visage, les cheveux, le nez, puis elle ira vers des propriétés de plus en plus fines, comme les rides, les taches de rousseurs ou grain de beauté. Et pour cela, la machine procède par couches successives. D’où l’expression "deep learning". Mais il faut encore attendre une dizaine d’années pour que la communauté scientifique et technique commence réellement à s’intéresser au sujet.

Aujourd’hui, le deep learning permet à Facebook de repérer les images pornographiques, de proposer des descriptions de photos pour les malvoyants, ou encore de reconnaître des membres du réseau sur les clichés. Les assistants vocaux, les traducteurs, les chatbots ou encore les voitures autonomes utilisent également cette technologique. « Mais c’est sans doute dans la santé que l’enjeu est le plus important, car l’analyse d’images médicales permettra bientôt de détecter plus vite des cancers, notamment des mélanomes, ou de diagnostiquer à partir de scanners du cerveau des maladies comme Alzheimer », dit-il.

Et demain ?

Reste la nécessité de superviser les apprentissages. « Une nécessité contraignante et qui restreint les applications », dit-il. « Mais le problème principal est que l’I.A. manque de bon sens. Par exemple, elle est incapable de comprendre que j’ai des jambes si mes jambes lui apparaissent cachées derrière ce pupitre. De la même manière elle sera incapable de savoir ce qui se passera avec ce stylo si je le jette en l’air », explique Yann LeCun. Pour lui, l’avenir de l’Intelligence Artificielle se trouve dans un apprentissage non supervisé (ou auto-supervisée).

Certes, il y a bien l’apprentissage par renforcement, où la machine apprend par essai, et renforce sa connaissance du monde chaque fois qu’elle réalise qu’elle s’est trompée ou au contraire qu’elle a réussi. C’est ce qui a permis à la machine Alpha Go de battre le meilleur joueur du monde en 2016. « Cette technique fonctionne très bien sur les jeux vidéo également. Le problème, c’est que c’est long et surtout, cela ne fonctionne pas dans la vie réelle, où il n’est pas question de laisser une voiture automatique passer un millier de fois par dessus la falaise pour qu’elle comprenne ! »

Pour développer le bon sens chez les machines, le chercheur a décidé de s’inspirer des bébés. « Ces derniers sont capables d’apprendre des tas de choses en quelques mois, rien qu’en observant. A huit mois, s’ils voient un objet flotter en l’air, ils sauront que quelque chose n’est pas normal. La machine ne sait pas faire ce raisonnement », dit-il. D’où l’idée de lui faire « regarder » des films pour qu’à force d’expérience, celui-ci soit capable de prédire ce qui se passe quand un stylo tombe.

« Toutes ces intelligences artificielles ne s’excluent pas les une les autres. Elles seront même probablement utilisées de manière complémentaire », prévient Yann LeCun, en comparant l’I.A. à un gros gâteau, où la génoise, c’est-à-dire la base, serait l’apprentissage auto-supervisé, le glaçage, serait l’apprentissage supervisé, et la cerise sur le gâteau, ce serait l’apprentissage par renforcement. Un gâteau dont tout le monde devrait tirer sa part.