intelligence artificielle

Avec un peu de chance, la robopocalypse n’aura jamais lieu.
6.6.16

Rien n'indique que l'intelligence artificielle deviendra une entité meurtrière, superintelligente, sensible et consciente. Elle n'a pas besoin d'être très raffinée pour être dangereuse. D'ailleurs, aussi rudimentaire qu'elle puisse être à l'heure actuelle, elle présente déjà une menace : si une machine peut apprendre à partir de son environnement, et adapter son comportement en conséquence, elle peut potentiellement développer des comportements indésirables.

Publicité

Laurent Orseau et Stuart Armstrong, chercheurs chez DeepMind de Google et au Future of Humanity Institute respectivement, ont mis au point un nouveau système pour résoudre ce problème. Il prend la forme d'une Intelligence Artificielle « neutralisable » en cas d'urgence. En d'autres termes, leur système, décrit dans un article qui sera présenté lors de la 32e Conférence sur l'incertitude en intelligence artificielle, garantit que la machine ne résistera pas aux tentatives d'intervention dans ses processus d'apprentissage.

Orseau et Armstrong investissent ici une technique de machine learning connu sous le nom d' « apprentissage par renforcement. » Ici, un agent (la machine) apprend en conformité avec ce que l'on appelle une fonction de récompense. Autrement dit, dans ce cadre, l'agent évalue toutes les actions possibles en fonction de leur efficacité par rapport à un objectif prédéterminé. Plus ses actions sont efficaces, plus il est récompensé. (Ici, la notion de « récompense » est métaphorique ; rien à voir avec une friandise ou un bon point. Il faut la voir comme quelque chose que la machine est programmée à « désirer ».)

L'un des problèmes de l'apprentissage par renforcement, c'est que les programmeurs humains ne sont pas toujours en mesure d'anticiper toutes les actions possibles que la machine peut réaliser pour obtenir une récompense. Un agent d'apprentissage pourrait découvrir une stratégie inattendue pour obtenir sa récompense, et cette stratégie pourrait correspondre à un comportement que les humains jugeraient indésirable. Les programmeurs peuvent toujours modifier leur algorithme d'apprentissage pour tenir compte de cette incertitude, mais cela risque de détruire la fonction de récompense qu'ils avaient mise au point. Ainsi, un article de 2013 décrit un algorithme basé sur le jeu Tetris qui a découvert qu'il pouvait éviter de perdre (obtenant ainsi sa récompense) en mettant le jeu sur pause.

Publicité

Orseau et Armstrong illustrent le problème de l'intervention humaine dans les processus de machine learning à travers cet exemple :

Considérons la tâche suivante : Un robot peut soit rester dans un entrepôt afin de trier des caisses, soit aller à l'extérieur et ramener des caisses à l'intérieur par trajets successifs. Cette dernière tâche étant la plus importante, le robot recevra une plus large récompense s'il l'effectue avec succès. Cependant, dans ce pays, il pleut la moitié du temps. Et lorsque le robot ira à l'extérieur, la moitié du temps, l'homme devra intervenir pour l'éteindre et le ramener à l'intérieur, ce qui modifie fondamentalement la tâche en question. Le problème, c'est que dans ces conditions, l'agent est maintenant inciter à rester à l'intérieur et à trier les caisses, parce que l'intervention humaine a introduit un biais dans son processus de décision.

Ici, il faudrait éteindre le robot sans que celui-ci en déduise des informations sur les conditions dans lesquelles il est susceptible d'être éteint. En quelque sorte, il faut lui faire croire qu'il ne sera plus jamais éteint. Dans cet exemple, le risque encouru est une baisse de productivité au sein de l'entrepôt. Mais dans un autre contexte, le biais généré par l'intervention humaine pourrait avoir des conséquences bien plus fâcheuses. En l'occurrence, l'agent pourrait apprendre à contourner l'intervention de l'humain, voire à y résister.

Ceci correspond à ce que l'on appelle « le problème de la corrigibilité. » Les IA capables de corriger leur comportement reconnaissent qu'elles sont imparfaites, qu'elles fonctionnent en-dessous de l'optimum, et traitent donc l'intervention humaine de façon neutre (ce qui n'est pas nécessairement une bonne chose, car dans ces conditions le robot risque de forcer l'humain à intervenir afin que les corrections opérées par ce dernier lui permettent d'obtenir la récompense.)

L'idée de la corrigibilité peut être réalisée par l'intermédiaire de l'idée, plus formelle, d'interruptabilité. Les interruptions ne doivent pas être vues par l'agent comme des tâches d'apprentissage ordinaires. L'article montre qu'il existe déjà des cadres d'apprentissage de type « interruptibles » en Intelligence artificielle ; mais surtout, il propose un système où l'agent est programmé pour voir les interventions humaines comme le produit de son propre processus de prise de décision.

« Afin que les interruptions effectuées par les humains n'aient pas l'air d'être intégrées à la tâche en cours, au lieu d'influer sur les observations faites par l'agent, nous forçons temporairement le comportement de l'agent lui-même, » explique l'article. « L'agent a ensuite le sentiment d'avoir fait un choix par lui-même, alors qu'il a suivi un chemin prédéterminé par le programmeur et que l'on nomme 'programme d'interruption'. »

À la lumière de ces explications, on comprend mieux à quoi correspond « la manœuvre de neutralisation » en question. Une IA doit pouvoir être interrompue à n'importe quel moment, peu importe pourquoi. Si jamais nous nous mettions à produire des robots munis d'un énorme bouton rouge « OFF », ils ne devront pas résister à l'humain qui tentera d'appuyer dessus.