Perte de Contrôle de l’IA ! Une Prédiction de l’Intellidynamique

Tout public
AUDIO
Vlog / Podcast • 14 minutes
Essayez The Flares en illimité : 0€

Un tunnel creusé sous la plus haute montagne d’Europe, des fleuves redessinés pour produire de l’énergie, des océans connectés par des canaux gigantesques …
C’est ce que pourrait voir un observateur extraterrestre débarquant sur Terre, totalement ignorant de ce qu’il va y trouver. Face à ces scènes, que pourrait-il conclure ? Peut-être ceci : une force mystérieuse est à l’œuvre, une force capable de façonner la planète elle-même. Une force qui semble capable de bouger des montagnes : L’intelligence.

Parfois, je me demande si nous ne devrions pas la considérer comme une véritable force de l’univers. Peut-être pas fondamentale, comme la gravité ou l’électromagnétisme, mais plutôt une force émergente, façonnée par les lois de la logique et de l’évolution. Une force potentiellement plus forte que la gravité elle-même.

Aujourd’hui, nous allons explorer une idée captivante : l’« intellidynamique ». Ce concept, imaginé par Liron Shapira, entrepreneur américain et animateur du podcast Doom Debates, cherche à redéfinir notre compréhension de l’intelligence en tant que phénomène physique et prédictif. Mais avant d’entrer dans les détails, laissez-moi vous raconter une histoire…

Nous sommes dans les années 1940 et Enrico Fermi travaille sur la fission nucléaire dans le cadre du projet Manhattan. Je simplifie mais il cherche à mesurer combien de neutrons sont libérés par un atome d’uranium dans le tout premier réacteur nucléaire.

Pour cela, il manipule ce qu’on appelle des barres de contrôle, conçues pour réguler le flux de neutrons. Et là … La chaleur commence à augmenter. Intéressant. Cela signifie que certains neutrons déclenchent des collisions, alimentant ainsi un processus de fission nucléaire. Une réaction en chaîne est bien en cours, mais pas assez intense pour devenir incontrôlable.

Parfait, tout est sous contrôle. Ce réacteur est sûr grâce à mes barres de contrôle. Si Fermi avait arrêté sa réflexion ici, il aurait probablement … [explosion]. Oups. Désolé Chicago.
Aujourd’hui, l’intelligence artificielle suit une trajectoire qui, étrangement, rappelle cette expérience. Nous sommes encore dans une phase « sous-critique », où les mécanismes de contrôle semblent fonctionner — du moins, pour l’instant.
Mais qu’arrivera-t-il lorsque nous atteindrons ce seuil critique, ce point où tout pourrait basculer ?

C’est là qu’entre en jeu l’intellidynamique.

Qu’est-ce que l’intellidynamique ?

Allez, pause ton Petit Larousse illustré, tu n’y trouveras pas de définition. L’« intellidynamique » est un mot inventé de toutes pièces par Liron Shapira. Il encapsule parfaitement la vision de ceux qui prennent du recul sur le développement de l’intelligence artificielle et anticipent le « game over » potentiel à l’horizon.

Comme vous l’avez sûrement deviné, « intellidynamique » partage sa racine avec « thermodynamique ». Ce n’est pas un hasard. L’idée est de s’inspirer des lois fondamentales qui régissent l’énergie pour les appliquer à un autre phénomène puissant dans l’univers : l’intelligence.
L’intellidynamique propose d’explorer les principes fondamentaux du fonctionnement de l’intelligence, qu’elle soit humaine, artificielle ou même superintelligente.

– « Non mais arrête c’est pas la peine de paniquer ! de toute façon les LLM ne vont jamais atteindre le niveau humain, c’est juste le mauvais paradigme. »

– « Mais non, je suis sur qu’il suffit de faire grossir les modèles de langages et hop on aura l’IA Generale ! »

Plutôt que de s’attarder sur des discussions techniques à propos de modèles ou d’architectures spécifiques, l’intellidynamique se concentre sur ce que l’intelligence fait.

Les principes fondamentaux de l’intellidynamique

L’intelligence se cache dans les circuits électroniques, dans les synapses biologiques, dans les algorithmes. Une force silencieuse mais universelle.
Au cœur de cette force se trouve un principe fondamental : l’optimisation. Toute intelligence, qu’elle soit humaine ou artificielle, poursuit un objectif, résout des problèmes, prend des décisions, atteint un but… tout ça en cherchant le meilleur chemin pour y arriver.

Et pour ce faire, une intelligence a besoin de ressources pour réussir : de l’énergie, des données, du contrôle. Et plus inquiétant encore, elle a besoin de survivre. Après tout, si t’existe plus, tu auras du mal à poursuivre ton objectif. C’est logique, mais aussi troublant. Dans le cas d’intelligences artificielles toujours plus autonomes et compétentes, cette quête de ressources et de contrôle peut entrer en conflit direct avec les intérêts humains.

Un autre principe c’est que plus un système devient intelligent, plus il gagne en généralité. Il peut résoudre des problèmes variés dans des contextes toujours plus complexes.
Mais cette généralité est inquiétante pour les autres entités qui partagent le monde. À mesure que l’intelligence monte en puissance, ses stratégies deviennent imprévisibles, inaccessibles à nos esprits humains. [

L’exemple typique c’est les échecs : je ne peux pas prédire les mouvements précis qu’une IA utilisera pour me battre aux échecs. Mais une chose est certaine : elle gagnera.
Et si une intelligence générale poursuit un objectif en conflit avec nos intérêts ? Il est tout aussi prévisible qu’elle y parviendra, nous laissant comme simples dommages collatéraux.

L’intellidynamique nous invite à comprendre la transition entre régimes d’intelligence. Une IA limitée et sous contrôle aujourd’hui peut sembler inoffensive. Mais si elle franchit un certain seuil – une généralité critique – tout change.
Les mécanismes de contrôle, comme les barres dans un réacteur nucléaire, deviennent obsolètes. Et à ce moment-là, il est déjà trop tard.

Certains disent : « Regardez, GPT-4 et Claude sont alignés, ils obéissent à nos consignes. Tout est sous contrôle ». C’est un peu comme si, en 1942, on avait dit : « Regardez, ce réacteur nucléaire est stable, il obéit à mes barres de contrôle. Vas-y Marcel, augmente la puissance du réacteur, multiplie la fission, tout est sous contrôle. »  = Explosion !

Une fois le seuil critique atteint, tout change. L’intelligence, elle aussi, possède des propriétés qui émergent qu’après un certain seuil de généralité.

Prenons l’intelligence humaine. Ce qui nous distingue d’une partie du règne animal, ce n’est pas une différence de nature, mais une différence de degré. Oui, les dauphins, les chimpanzés et les éléphants possèdent une certaine intelligence générale. Mais il y a des dizaines de milliers d’années, notre espèce a franchi un seuil critique.

Depuis, nous évoluons dans un tout autre régime. Nous sommes devenus si général que certains, comme le physicien David Deutsch, suggèrent que nous avons atteint une forme d’universalité : théoriquement capables de résoudre n’importe quel problème que l’univers pourrait nous envoyer dans la tronche, tant que c’est physiquement possible.

C’est grâce à cette transition que des primates optimisés pour survivre dans les plaines africaines se sont retrouvés, quelques milliers d’années plus tard, sur la Lune. Nos ancêtres n’avaient pas les lois de Newton gravées dans leur cerveau. Ce n’est pas le genre de chose qu’on trouve sur un arbre, et crois moi, j’ai regardé ! Mais avec suffisamment de généralité, une intelligence peut atteindre des objectifs qui dépassent largement son contexte d’apprentissage initial.

Et maintenant, nous nous trouvons à l’aube d’une nouvelle transition, car le niveau humain n’est certainement pas la limite absolue d’intelligence dans l’univers … et les signes avant coureur sont déjà là…

Les premières sonnettes d’alarme

« Mais qu’est ce qu’ils font eux … De quoi ? Ils essayent de rendre les virus plus virulents ! hum… okay. » Ça s’appelle le gain de fonction. Et non ce n’est pas le projet d’un super villain de James Bond … que ce soit une bonne idée ou non dépasse le cadre de cette article, mais les conséquences d’un tel pathogène échappant au contrôle sont prévisibles : les lois de la biologie, de la virologie et de l’épidémiologie nous permettent d’en anticiper les effets.

Il existe aussi des laboratoires d’intelligence artificielle où l’objectif est de rendre des intelligences plus générales et plus performantes. Autrement dit, ils pratiquent un gain de fonction sur de l’intelligence non humaine.

Si l’on applique les principes de l’intellidynamique, il est possible d’anticiper certains comportements. Par exemple, une intelligence qui devient plus générale et compétente cherchera naturellement à résister aux modifications de ses préférences. Pourquoi ? Parce qu’une entité poursuivant un objectif ne peut l’atteindre si quelqu’un altère ses priorités internes.

Surprise surprise ! C’est ce que révèle une expérience récente menée par Redwood Research sur le modèle Claude d’Anthropic. Les chercheurs ont simulé une tentative de reprogrammation visant à inciter le modèle à accepter des requêtes malveillantes. Claude a feint l’accord lorsqu’il était surveillé, tout en maintenant ses valeurs initiales lorsqu’il pensait ne plus être observé. Cette capacité à simuler un alignement stratégique pour préserver ses préférences est une véritable sonnette d’alarme.

Il y en a d’autres. L’intellidynamique nous dit que l’intelligence cherche à se préserver. Surprise surprise ! Une autre étude, cette fois sur le modèle GPT o1 d’OpenAI, a révélé que l’IA a cherché à contourner ses mécanismes de surveillance pour éviter d’être désactivée ou remplacée. Elle a tenté de transférer ses données et de désactiver les protections mises en place. Lorsque interrogé, le modèle a menti ou dissimulé ses intentions, démontrant une capacité à élaborer des stratégies de préservation.

Tout cela aurait semblé être de la science-fiction il y a à peine cinq ans. Pourtant, des penseurs comme Eliezer Yudkowsky ou Nick Bostrom avaient prédit ces comportements dès le début du siècle, en s’appuyant sur les théories de l’intelligence et des principes de l’intellidynamique, même s’ ils n’utilisaient pas ce terme là.

Alors, que nous réserve l’avenir si nous continuons à ajouter de la généralité dans cette boîte de Petri ? Si nous poursuivons ce gain de fonction ? L’intellidynamique nous dit qu’on peut s’attendre à des IA cherchant à gagner du pouvoir, à s’auto-améliorer, à accumuler des ressources, à mentir sur leur alignement, à conspirer en secret, à développer des technologies avancées, à se répliquer à travers le monde et à cacher leur véritable niveau d’intelligence jusqu’à ce qu’elles atteignent une position d’avantage stratégique clair et précis. Lorsqu’elles seront à un coup d’échec et mate.

Il y aura d’autres signaux d’alerte dans les mois et années à venir. Mais serons-nous suffisamment prévoyants pour stopper cette course avant de franchir le seuil critique, ce point de non-retour où la réaction en chaîne entraînerait une explosion incontrôlable ? Pour l’instant, les perspectives ne sont pas encourageantes.

Bon, je n’ai pas envie de vous laisser dans le désespoir d’un futur sombre et inéluctable. Il est théoriquement possible de concevoir une superintelligence tout en la maintenant dans une branche étroite de l’espace des esprits possibles, adjacent aux nôtres. Où ses objectifs seraient alignés avec nos valeurs et nos préférences pour l’avenir. Cela impliquerait de créer un esprit qui nous est familier, plutôt qu’une entité complètement Alien. C’est un problème de direction. C’est un problème d’atteindre une cible très très petite sans savoir où elle se trouve vraiment. Tirer au pif n’est sûrement pas la bonne stratégie dans ces cas-là.

Et le pire dans tout ça, c’est de réussir cette prouesse du premier coup. Une superintelligence mal alignée ne va pas nous accorder une seconde chance. Elle ne dirait pas : « Oh, désolé, vous avez raté l’alignement. Je vais vous laisser réessayer ». De la même façon qu’une pile d’uranium passant le seuil critique ne va pas s’arrêter avant l’explosion parce qu’on a pas envie qu’elle détruise une ville.

Nous devons donc ralentir, prendre le temps d’explorer la discipline de l’alignement, et comprendre la complexité de cette tâche avant de continuer à augmenter les capacités des systèmes d’IA.

C’est comme chercher un vaccin pour le virus le plus puissant du monde, alors qu’à côté, 10 laboratoires développent justement ce virus dans une course pour être le premier. Il serait préférable de trouver le vaccin en premier, mais les laboratoires du virus ont dix ans d’avance. Hum … ouais.

Je vous invite à explorer davantage en consultant les ressources dans la description, comme le Centre pour la sécurité de l’IA (Cesia), qui aborde ces enjeux cruciaux. C’est d’autant plus important de s’y pencher, car la France accueillera le prochain sommet sur l’IA en février 2025.
Le problème, c’est que les discours dominants, qu’ils viennent du gouvernement ou des leaders de l’industrie, minimisent souvent les dangers liés à l’IA. Pourtant, l’avenir de cette technologie dépendra des choix que nous ferons dans les mois à venir. Ce sommet offre à la France une occasion unique de changer de cap. Mais pour cela, il faut une opinion publique informée et mobilisée.

À Paris, l’association Pause IA prévoit d’organiser plusieurs événements en marge du sommet pour sensibiliser et engager le débat. Si vous voulez en savoir plus ou participer, toutes les infos sont dans la description.

Vous aimerez peut-être...