Une IA apprend à jouer au Go sans supervision humaine et écrase le champion en titre

Le dernier réseau de neurones de DeepMind, AlphaGo Zéro, est un autodidacte.

|
18 Octobre 2017, 5:00pm

Image : Flickr/Linh Nguyen

Début 2016, une intelligence artificielle baptisée AlphaGo a émerveillé le monde entier lorsqu'elle a battu le champion de Go en titre, Lee Sedol. Le Go est jeu de stratégie très ancien, originaire d'Asie. Il oppose deux joueurs tentant de s'emparer les pièces de leur adversaire et d'obtenir le contrôle du plateau. Bien qu'un ordinateur ait battu un maître du jeu d'échec il y a déjà 20 ans, les experts estimaient qu'il faudrait au moins une décennie avant qu'un ordinateur ne devienne champion de Go, compte-tenu de la complexité des stratégies élaborées par les joueurs de haut niveau. La victoire d'AlphaGo sur Lee Sedol a marqué une étape importante du développement de l'intelligence artificielle. Mais malgré son succès, ses créateurs n'en avaient pas terminé avec elle.

Comme l'explique un article publié aujourd'hui dans le journal Nature, DeepMind – la filiale d'Alphabet qui a conçu AlphaGo – a réussi à créer une intelligence artificielle qui apprend à jouer au Go sans instructions humaines. Cette nouvelle IA autodidacte a récemment écrasé le champion AlphaGo, 100 jeux à 0.

Comme l'IA qui l'a précédé, AlphaGo Zero – car c'est son nom – est un réseau de neurones, c'est-à-dire une architecture informatique inspirée par le cerveau humain.

Le modèle Alpha Go d'origine était programmé pour jouer selon les règles du Go, puis apprenait à utiliser des stratégies typiques du jeu grâce à un processus itératif. Selon un article publié dans Nature l'an dernier, AlphaGo est en réalité le produit de deux réseaux de neurones : le premier, "orienté analyse" évalue la configuration du plateau, tandis que le second, "orienté action" détermine le prochain coup. Les deux réseaux ont été entrainés en observant des millions de parties entre experts et en jouant des milliers de parties contre eux-mêmes. Ils ont ainsi affiné leur stratégie au cours de plusieurs mois.

Le nouvel AlphaGo Zero flambant neuf n'est composé que d'un unique réseau de neurones. Les chercheurs ont décidé de lui apprendre "l'existence" du plateau de Go et de ses pièces, pas davantage. Tout ce qu'il a appris du jeu par la suite – y compris ses règles – il l'a déduit lui-même. Plutôt que d'étudier des stratégies de joueurs experts humains, AlphaGo Zero a joué contre lui-même, inlassablement, au cours de 4,9 millions de parties. À partir d'une première partie où il a joué en déplaçant les pièces au hasard, il a progressé jusqu'à "comprendre" le principe du jeu, puis a élaboré des stratégies de plus en plus raffinées jusqu'à battre le vieux AlphaGo de manière systématique au cours de 100 parties consécutives.

Il s'agit sans nul doute d'une prouesse impressionnante, même si AlphaGo Zero est encore très loin de ressembler à l'IA toute-puissante qui hante les films de science-fiction et nous fait craindre notre obsolescence prochaine. Le réseau de neurones fait ce pour quoi il a été conçu : tout défoncer au jeu de Go. Il ne va pas vous servir une tasse de thé en devisant sur la météo et en demandant des nouvelles de votre mère.

Plus tôt cette année, les chercheurs de DeepMind ont publié deux articles sur arXiv décrivant les architectures IA qui, espèrent-ils, ouvriront la voie à une intelligence artificielle générale (AGI). Le premier article décrit un réseau de neurones appelé CLEVR capable de décrire les relations entre un ensemble statique d'objets 3D, comme une balle ou un cube. Le second explique le fonctionnement d'un réseau de neurones capable de prédire le futur état d'un objet 2D en mouvement, à partir de ses mouvements passés. Les deux réseaux de neurones ont surpassé toutes les IA connues sur ces tâches. Dans certains cas, CLEVR a même surpassé un humain.

DeepMind explique qu'aucune de ces architectures n'a été utilisée dans le développement d'AlphaGo Zero, bien que le réseau de neurones développé pour AlphaGo Zero possède des applications multiples qui vont bien au-delà des jeux de société.

"AlphaGo Zero a montré des compétences surhumaines dans ce domaine, et montre que les machines peuvent apprendre sans input humain, avec une puissance de calcul moindre", m'explique un porte-parole de DeepMind dans un email. "Nous croyons que cette approche peut être généralisée à un large ensemble de problèmes structurés qui partagent des propriétés similaires à celles du jeu de Go – comme la planification de tâches au cours de laquelle une série d'actions doivent être exécutées dans un ordre défini : le repliement des protéines ou la réduction de la consommation d'énergie, par exemple."

La recherche en IA de DeepMind montre une trajectoire claire : enseigner aux machines comment "penser" sur le modèle humain. Éclairer ce problème sera la clé du développement d'une intelligence artificielle générale, et le travail de DeepMind constitue un pas significatif dans cette direction. Il serait tentant de faire du champion de Go autodidacte le précurseur d'une apocalypse imminente basée sur l'IA, mais pour paraphraser le neuroscientifique Harvard Sam Gershman, le fait qu'un ordinateur surpasse un humain pour une tâche spécifique ne signifie en aucun cas qu'il possède une intelligence surhumaine.