Publicité
Tech by VICE

Pourquoi l’IA est toujours incapable de réussir un examen de niveau collège

Le Allen AI Science Challenge montre qu'il faut un peu plus qu’une intelligence encyclopédique pour réussir dans la vie.

par Victoria Turk
19 Février 2016, 10:12am

Récemment, une compétition a mis à l'épreuve différents modèles d'IA en leur faisant passer un examen de niveau 4ème. Les gagnants ont été annoncés cette semaine, et apparemment, aucun robot n'est prêt à passer dans la classe supérieure.

Le Allen AI Science Challenge, organisé par l'Institut Allen pour l'Intelligence Artificielle a demandé aux participants de mettre au point des modèles d'IA capables de répondre à un QCM de niveau 4ème. La meilleure IA a obtenu un score de 59,3% de bonnes réponses seulement. On est bien loin du 18/20.

Le défi devait constituer une alternative au traditionnel Test de Turing, très critiqué. On lui reproche d'être avant tout un exercice d'enfumage de jurys crédules, plutôt qu'une évaluation de « l'intelligence » d'un système en bonne et due forme. Le but de l'utilisation d'un test QCM était de mesurer les capacités des IA en traitement du langage et en raisonnement logique : elles devaient d'abord interpréter correctement la question, puis déterminer la réponse la plus appropriée.

Pourtant, même les systèmes les plus élaborés ne parviennent pas à se rapprocher, ne serait-ce qu'un tout petit peu, des performances humaines en matière de raisonnement.

« Je pense qu'il faudra abandonner progressivement le paradigme de la recherche pure et adopter une méthode capable de prendre en compte des savoirs très structurés. »

« Avant les résultats finaux, nous ne savions pas bien à quoi nous attendre. Je m'attendais à ce que les participants s'en soient bien sortis, mais pas à une percée extraordinaire dans le monde de l'IA, » explique Oyvind Tafjord, ingénieur logiciel à l'Institut Allen, et qui était responsable de la vérification des résultats.

À la première place, Chaim Linhart, chercheur chez TaKaDu, une startup basée en Israël, a remporté un prix de 50 000 dollars. Il se fait appeler « Cardal » sur Kaggle, la plateforme sur laquelle a été hébergée la compétition. À la seconde et la troisième place, les scores de réussite tournaient autour de 58% environ.

Tafjord explique que les trois équipes sur le podium avaient utilisé des modèles de machine learning basés sur la recherche massive : les IA se sont contentées de fouiller dans d'immenses bases de données afin de trouver les réponses aux questions. Les sources en question incluaient Wikipédia, des manuels scolaires open source, et des fiches de lecture numériques servant habituellement aux révisions.

Ces modèles disposaient d'un éventail de méthodes multiples (entre 50 et 1000 selon les modèles) pour les aider à résoudre les problèmes du QCM. Une méthode récurrente consistait à examiner à quelle fréquence une question et une réponse étaient associées dans le corpus disponible, et à quel point les mots de la question et ceux de la réponse étaient proches.

Ce graphique montre l'évolution des scores des participants au cours de la compétition. Oyvind explique que l'on observe un saut de performance à chaque fois qu'un participant essayait une nouvelle méthode et relançait son système sur le test.

Comme on peut le voir, personne n'est parvenu à dépasser le score de 60% de réussite.

« L'issue de la compétition était vraiment incertaine, » explique Tafjord. « J'ai été très impressionné par la manière dont ils s'en sont sortis sur le plan de la collecte d'information ; ils ont poussé les méthodes de recherche extrêmement loin. Je n'aurais jamais pensé qu'ils dépasseraient les 50% de réussite. »

Désormais, Tafjord est persuadé qu'il faut changer radicalement d'approche si l'on veut atteindre des scores plus élevés.

« Quand vous regardez attentivement ces questions, vous vous apercevez qu'il existe certaines classes de questions qui exigent une réponse sous forme de définition. Le genre de réponse que l'on trouve facilement, tout prête, dans un manuel. En revanche, d'autres questions demandent de réfléchir un petit peu, et d'avoir une certaine représentation du monde. Pour répondre à celles-là, je pense qu'il faudrait abandonner progressivement le paradigme de recherche pure pour adopter une méthode capable de prendre en compte des savoirs très structurés. »

Lors de la compétition, les 10 meilleurs modèles d'IA ont tous réussi à répondre à cette question :

Quel modèle utilisent les scientifiques pour déterminer les propriétés des éléments ?

  • (A) Un échiquier de Punnett
  • (B) Le tableau périodique des éléments
  • (C) Un arbre généalogique
  • (D) Un diagramme circulaire

À l'inverse, peu d'IA ont réussi à répondre à :

Quels renseignements les tremblements de Terre donnent-ils aux scientifiques sur l'histoire de notre planète ?

  • (A) Le climat de la Terre change en permanence
  • (B) Les continents sont en mouvement
  • C) Les dinosaures se sont éteints il y a 65 millions d'années
  • (D) Les océans sont plus profonds aujourd'hui qu'il y a quelques millions d'années

(Il fallait répondre B dans les deux cas, mais pour la deuxième question les IA ont répondu C.)

Il reste encore à déterminer ce qu'est une vraie « intelligence » artificielle, mais si le test du chatbot qui se fait passer pour un adolescent maladroit auprès d'un humain n'est pas très convaincant, la prouesse de l'IA qui cherche des réponses sur Wikipédia ne l'est pas davantage. Même si elle a réussi à cocher 60% de cases correctes.

Malgré tout, la compétition a atteint l'un de ses objectifs : rassembler la communauté IA autour d'une unique tâche, avec plus de 780 équipes participantes. « Ce que ce rassemblement permettra sur le long terme sera beaucoup plus intéressant, » déclare Tafjord. « Nous espérons que les gens réalisent « oui, finalement, c'est quand même très difficile d'amener une IA à réussir des choses qui nous paraissent aussi élémentaires. Comment peut-on pousser nos ordinateurs jusque là ? Comment peuvent-ils nous être encore plus utiles qu'ils ne le sont déjà ? »