Intelligence artificielle : sécurité et sûreté sont elles possibles ?
On retourne à un des sujets que je trouve le plus fascinant : L’intelligence artificielle. Ça me fascine tellement que j’en ai fait une série documentaire de 9 épisodes disponible sur le site The Flares. Je vous invite à la regarder, déjà pour nous soutenir mais également pour comprendre pourquoi je considère que c’est le domaine qui a le plus gros potentiel d’influer sur le futur selon moi.
Depuis la 2de guerre mondiale, Alan Turing, l’ordinateur ENIAC, jusqu’à Deep Blue, Alpha Go et GPT-3, les systèmes informatiques gagnent de plus en plus de compétence cognitive grâce à de nombreuses techniques qui ont vu le jour, en particulier l’apprentissage machine et les réseaux de neurones artificiels. Certains sont déjà super humains dans certaines tâches et l’objectif de nombreux chercheurs est de généraliser l’intelligence artificielle, c’est-à-dire rendre un système expert dans une multitude d’activités avec notamment la capacité d’apprendre de façon autonome. Nous sommes l’exemple évident d’une intelligence générale par la magnitude de nos compétences, mais de nombreux autres animaux possèdent également la généralité d’intelligence.
Depuis quelques années, une sorte de nouvelle sous discipline de l’IA a émergé appelée “Sécurité de l’IA” (AI Safety). Sa principale préoccupation est que nous pourrions construire des systèmes autonomes qui sont beaucoup plus intelligents que les humains et qui poursuivent des objectifs en conflit avec les nôtres. L’intelligence humaine nous permet de contrôler le monde dans une plus grande mesure que toute autre espèce. Mais il est possible, voire probable que les IA finiront par devenir plus compétentes que nous dans presque toutes les tâches qui nous offrent ce contrôle. Si nous ne pouvons pas les maîtriser, alors l’humanité pourrait perdre sa place d’espèce la plus puissante de la planète et notre capacité de façonner l’avenir. Tout comme nous avons perdu notre position de meilleur joueur d’échecs.
Ce scénario est en fait le plus probable. Dans le sens ou parmi le champ des possibles, il y a plus de façon pour une super IA d’être mal alignée à nos valeurs que parfaitement alignées. Autrement dit, sans un effort conséquent pour l’empêcher, il y a de fortes chances que:
- Nous allons créer des IA qui sont beaucoup plus intelligentes que les humains (c’est-à-dire superintelligentes).
- Ces IA seront des agents autonomes qui poursuivent des objectifs à grande échelle.
- Ces objectifs seront mal alignés avec les nôtres; c’est-à-dire qu’elles produiront des résultats qui ne sont pas souhaitables selon nos normes.
- De telles IA pourraient prendre le contrôle de l’avenir de l’humanité. Ce qui pose un risque existentiel majeur.
Rendre les IA bienveillantes est donc une façon rapide de dire qu’on les aligne à nos valeurs. Mais que signifie être aligné sur les valeurs humaines ? Le chercheur Richard Ngo distingue deux types d’alignement. Les approches minimalistes qui visent à éviter les conséquences catastrophiques d’une instruction mal interprétée. Le meilleur exemple est le concept d’alignement d’intention “Quand je dis qu’une IA A est alignée avec un opérateur B, cela signifie que A essaie de faire ce que B veut qu’elle fasse.
Les approches maximalistes quant à elle tentent d’amener les IA à adopter un ensemble global de valeurs – comme une théorie morale particulière ou un consensus démocratique ce qui est beaucoup plus abstrait et méta-éthique. Il ne suffit pas de programmer les 10 commandements ou les 3 lois de la robotique et on en parle plus ! Cela fait certainement plus de 5000 ans que les philosophes de toutes civilisations débattent sur des questions éthiques. Autrement dit, nous ne partageons pas tous les mêmes normes et valeurs, donc ça complique la tâche de les transmettre aux IA.
Je ne suis personnellement pas un chercheur en IA, ni même dans l’informatique. Je sais tout juste coder du JavaScript. Et je suis sûr que des personnes plus calées regardant cette vidéo vont s’arracher les cheveux par ma vulgarisation. Mais comme je l’ai dit, je suis curieux et fasciné ce qui me pousse à être à l’affût. C’est justement comme ça que je suis tombé sur un livre intitulé “The alignment problem” par Brian Christian ou il dresse plusieurs approches qui pourraient nous apporter des semblants de solution et vous verrez qu’elles s’inspirent souvent de l’apprentissage des jeunes humains. Mais elles ont presque toutes ce qui est appelé perverse instantiation (ou instanciation perverse). Pour faire simple, plus une IA est intelligente et performante, plus elle sera en mesure de trouver un raccourci imprévisible qui satisfait au maximum les objectifs programmés. Et ce raccourci peut avoir des conséquences indésirables.
Au sommaire
Récompense (Reward function) :
Cette approche consiste à faire comprendre ce que l’on souhaite à une IA en la récompensant lorsqu’elle performe correctement. Vous avez un comportement en tête et vous devez créer une récompense qui à son tour encourage ce comportement. Ça parait logique est c’est une des fondations de l’apprentissage. Les enfants sont en recherche constante d’approbation et de récompense. C’est aussi comme ça qu’on arrive à faire apprendre des tours aux animaux comme les chiens qui reçoivent une croquette à chaque fois qu’ils obéissent.
La difficulté est de découvrir exactement quoi récompenser et il est possible de se tromper. Un exemple que j’ai entendu récemment dans un podcast c’est une petite fille qui s’amuse avec une pelle et balayette en plastique. Ce sont des jouets mais il se trouve qu’elle a ramassé des trucs sur le sol et les a mis à la poubelle. Son père l’a félicitée “Oh, wow, bravo c’est très bien de balayer tout ça”. Et la petite, très fière, jette la poubelle sur le sol afin de la balayer une deuxième fois et obtenir le même éloge. Le père a fait l’erreur classique de récompenser ces actions plutôt que l’état de la cuisine. Il aurait dû louer à quel point le sol était propre, plutôt que le balayage. Une des clés est donc de récompenser les états de l’environnement et non les actions de l’agent. Ce qui permet de minimiser les conséquences imprévues.
Un autre problème c’est lorsqu’une IA court-circuite son système de récompense et trouve des moyens de se donner une récompense infinie. Par exemple une IA jouant à un jeu vidéo de tennis que vous récompensez pour avoir obtenu un score élevé. Si elle est suffisamment intelligente, elle apprendra à devenir bon au jeu comme le ferait un joueur humain, mais une IA superintelligente apprendra que le score est simplement quelques variables et lignes de code, et ainsi elle essaiera de pirater le tableau du score pour lui faire dire 6-0, 6-0, 6-0. De quoi ruiner l’esprit sportif !
Curiosité :
Regardez les enfants, la façon dont ils sont motivés à simplement prendre, mordre, frapper des objets. Il semble y avoir une sorte de pulsion innée pour la curiosité. Ou les bébés qui présentent ce que l’on appelle regard préférentiel, c’est-à-dire qu’à partir de l’âge de deux semaines, si on suit les mouvements de leurs yeux, ils préféreront regarder quelque chose qu’ils n’ont jamais vu auparavant. C’est comme une sorte de mécanisme de récompense interne. La même chose a été observée avec certains animaux qui appuieront sur un levier pour obtenir de la nourriture, mais ils appuieront également sur un levier pour se rendre dans une nouvelle pièce juste pour voir ce qu’il s’y trouve.
Une dose de curiosité semble donc essentielle pour les IA, mais là encore on observe des instanciations perverses. Un agent qui ne comprend pas que le hasard est une propriété fondamentale de l’univers pourrait finir par rester coincé pour toujours à tirer une pièce à pile ou face parce qu’il pense qu’il y a une sorte de structure profonde dans l’univers qu’il doit découvrir. Un groupe d’OpenAI et de l’Université de Berkeley a justement donné des récompenses à une IA à chaque fois qu’elle rencontre quelque chose de nouveau. Son but était d’échapper un labyrinthe et ils se sont dit que si l’IA est récompensé lorsqu’elle voit de la nouveauté, elle sera motivée pour explorer la carte et trouver la sortie rapidement. Mais lorsqu’un écran de télévision est placé dans un coin de la carte, ça détourne complètement l’objectif initial de l’agent lorsqu’il tombe sur la TV. Le flux constant d’images apporte un flot de nouveautés et l’IA oublie que son objectif est de trouver la sortie du labyrinthe.
Imitation :
Une façon dont nous pourrions avoir des IA très puissantes, mais qui continuent à se comporter de la manière que nous souhaitons, serait d’essayer de les amener à imiter notre comportement en apprenant directement de notre exemple. Cette approche de l’imitation s’inspire des bébés et jeunes enfants qui imitent les adultes autour d’eux. Nous savons depuis les années soixante-dix que les bébés sont capables d’imiter les expressions faciales des adultes dans les 45 minutes suivant leur naissance, ce qui est incroyable parce qu’ils ne se sont encore jamais vus dans un miroir. Et donc ils ne savent même pas à quoi ils ressemblent. Ils font cette correspondance entre la sensation de leur visage avec l’apparence des autres visages.
Dans le cadre des voitures autonomes, Tesla a eu l’idée d’incorporer ce qu’ils appellent le “mode ombre”. Chaque Tesla avec du matériel de pilote autonome au-dessus d’un certain niveau, apprend en fonction de la conduite humaine. Même lorsque vous éteignez le pilote automatique, l’ordinateur est toujours en train de calculer ce qu’il ferait s’il conduisait la voiture et se compare constamment au conducteur. Toutes les données sont ensuite centralisées par Tesla puis servent à entraîner les modèles pour les prochaines mises à jour logiciel.
Cette approche, bien que prometteuse, a également d’énormes problèmes lorsque ce qu’elle imite comprend des erreurs ou des biais. Un système qui est programmé pour sélectionner les meilleurs candidats d’une interview pourrait imiter le recrutement des années précédentes. Si la base de données remonte à plusieurs décennies, elle pourrait discriminer de nombreux groupes. Par exemple si l’entreprise employait moins de femmes par le passé pour des raisons de normes sociales, le programme de recrutement va se dire que les candidats féminins sont moins qualifiés. Alors qu’en fait, les normes sociétales ont simplement évolué vers plus d’égalité.
Deduction :
Si vous essayez de faire une action physique – disons que vous essayez de ranger quelque chose, mais vous n’avez pas les mains libres pour ouvrir l’armoire. Des enfants aussi jeunes que 18 mois peuvent comprendre ce que vous essayez de faire en fonction de votre comportement et vous aideront spontanément. Ils font une sorte de déduction pour connaître votre objectif. C’est remarquables parce que cette capacité se développe plusieurs années avant la théorie de l’esprit qui est la compréhension que les autres individus ont des expériences subjectives différentes que nous.
C’est une autre approche intéressante que les chercheurs essayent d’incorporer aux IA, notamment avec l’apprentissage par renforcement inverse. L’apprentissage par renforcement classique consiste à partir avec un schéma d’attribution de points dans un environnement, et de dire à l’IA “comment développer un comportement pour maximiser ces points ?”.
L’apprentissage par renforcement inverse va dans l’autre sens, d’où le nom. Il dit à l’IA “étant donné un comportement que tu observes et qui maximise vraisemblablement quelque chose, trouve qu’est ce qui est maximisé et fais-en ton objectif.
Un exemple assez célèbre dans la communauté IA provient d’Open AI en 2007. Ils voulaient qu’un avatar effectue des backflips dans un environnement virtuel. Mais il est difficile pour un humain de faire un backflip. La plupart d’entre nous ne le peuvent pas, donc l’approche de l’imitation n’est pas pratique. Il est également difficile de décrire un backflip numériquement en termes de force, gravité, dynamique, etc. Mais c’est le genre de truc si vous en voyez un, vous saurez instantanément que c’est un backflip. L’idée était que le programme partirait initialement de zéro: «Je n’ai aucune idée de ce que l’humain veut que je fasse. Donc, je vais juste me tortiller au hasard et je vais montrer à l’utilisateur deux clips vidéo et il me dira lequel est le plus proche de ce qu’il veut que je fasse » ensuite, il se dit: «Okay, je sais que vous avez préféré X à Y. Je vais faire quelques déductions sur ce que pourrait être l’objectif que vous avez en tête. Et je vais vous montrer deux nouveaux clips vidéo. » Si vous effectuez ce processus 900 fois – ce qui semble beaucoup, cela prend environ une heure, mais 900 bits d’information, ce n’est finalement pas grand-chose, à la fin, le programme effectue des backflips.
C’est une forme de collaboration entre humain et machine qui est encourageante. Mais encore une fois, il y a des pièges à éviter lorsque nous n’avons pas une idée précise de l’objectif que l’on souhaite atteindre. Nous vivons à une époque d’algorithmes de recommandation qui utilisent souvent l’apprentissage par renforcement inverse qui se dit en gros : J’ai vu le genre de choses qui t’attire et voici ce que je pense que tu veux. Donc je vais te donner ce que tu sembles vouloir.
En se référant uniquement sur le temps qu’une personne prend lorsqu’il regarde son mur Facebook ou YouTube, un système d’apprentissage par renforcement inverse apprendrait que pour un fumeur, l’un de ses objectifs est de fumer beaucoup de cigarettes. Car chaque fois qu’une image montrant une personne en train de fumer apparaît, son regard s’arrête une seconde de plus que pour les autres images. Or, l’objectif d’un fumeur peut souvent être d’arrêter de fumer. Ce qui sera rendu très difficile si un moteur de recommandation comprend que l’attention du fumeur est saisie par des photos de cigarette comme une mouche dans une toile d’araignée.
Vous avez donc ces intérêts commerciaux, qui sont alignés sur les profits, et l’attention devient la variable qui essaie d’être capturée pour la maximisation du profit. L’attention devient donc ce genre d’objectif instrumental sur lequel les géants de la Tech forment leurs énormes réseaux neuronaux et leurs algorithmes. Et donc des choses comme les fake news, ou les idéologies extrémistes, peu importe leur provenance, ainsi que la publicité prolifèrent, car elles captent bien l’attention. Mais tout cela n’est pas forcément aligné avec les valeurs d’une société ou l’humanité en générale.
Incertitude :
Les systèmes artificiels intelligents d’aujourd’hui sont conçus pour catégoriser le monde. Ça, c’est un chien, ça, c’est un chat. Ça, c’est des noix de cajoux. Ça, c’est de la poussière. Mais les problèmes surviennent lorsqu’ils se trouvent dans un scénario où quelque chose n’est pas dans leur base de catégorie. C’est comme ça qu’une voiture autonome d’Uber a tué une piétonne en 2018. Car cette dernière a traversé la route en marchant avec son vélo. La voiture savait ce qu’est un piéton, ainsi qu’un vélo. Mais un piéton qui marche avec son vélo au lieu d’être dessus n’était pas dans son répertoire. La voiture autonome était confuse: “Okay, je vois le cadre du vélo et les pneus, mais elle marche sur le sol alors peut-être que c’est un piéton.” Et l’étiquette de la catégorie a fait des aller-retour entre vélo et piéton des dizaines de fois par seconde. Ce qui l’a paralysé en quelque sorte jusqu’à l’accident. Le monde réel n’est pas juste un ensemble de catégories.
Et c’est ce qui est au cœur des craintes autour des super intelligences artificielles. L’idée d’avoir des systèmes suffisamment puissants pour imposer au monde les limites de leur propre compréhension. Ils ont cette vision appauvrie de la réalité, mais ils obligent ensuite le monde à s’y conformer, plutôt que de s’adapter eux-mêmes. C’est terrifiant.
Des chercheurs comme Stuart Russell et d’autres ont réfléchi à la façon dont nous pouvons incorporer une certaine notion d’incertitude ou de doute. L’idée est que l’agent pense savoir ce qu’il est censé faire, mais c’est peut être faux. Il s’agit de laisser un peu la fonction de récompense entrouverte, pour ainsi dire, de telle sorte que si vous dites: «Whoa, arrête ne fait pas ça », l’agent intelligent est réceptif à ce feedback, et ouvert à modifier sa notion de ce qu’il est censé faire. Plutôt que de bêtement chercher à optimiser ce qu’il pense que l’on souhaite.
Une façon d’essayer d’intégrer la prudence et l’incertitude consiste simplement à donner directement à ces systèmes une préférence pour ne pas changer le monde, afin qu’ils cherchent à faire le minimum pour atteindre leur objectif avec le moins d’effets secondaires que possible. Car la notion de certitude est liée à celle de l’impact. Plus l’impact de l’action que vous êtes sur le point d’entreprendre est élevé, plus vous devez être certain avant de l’entreprendre. Quelque chose que l’on retrouve en éthique médicale. Mais c’est évidemment plus facile à dire qu’à faire.
Voilà pour le petit tour d’horizon des approches pour rendre les IA alignés à nos valeurs et éviter des catastrophes.
Mais il y a un risque que ces systèmes deviennent si bons, si utiles, et commercialement précieux, que le problème d’alignement soit en quelque sorte mis en arrière-plan comme n’étant pas si pertinent. On le voit avec les réseaux sociaux qui ont propagé la désinformation, puis ont amené les gens dans différents groupes idéologiques, à penser des choses totalement différentes et à croire à des faits incompatibles. Toutes ces choses sont des conséquences imprévues qui auraient pu être anticipées. On peut donc y voir un petit panneau d’avertissement pour le futur de l’IA.
[contenus_similaires]- Realisation
- Commentaire voix off
- Montage image
- Sources images et videos
- Sources audio
- https://futureoflife.org/2021/05/20/bart-selman-on-the-promises-and-perils-of-artificial-intelligence/
- https://www.alignmentforum.org/s/mzgtmmTKKn5MuCzFJ/p/8xRSjC76HasLnMGSf
- Brian Christian on the alignment problem - 80,000 Hours
- https://openai.com/blog/deep-reinforcement-learning-from-human-preferences/