Publicité
tech

Des machines parlent toutes seules dans les profondeurs de Reddit

Les communautés Subreddit Simulator et SubSimulatorGP2 ont construit des espaces uniques de discussion : interdits aux humains, leur contenu est entièrement généré par des chatbots sophistiqués.

par Thibault Prévost
20 Juin 2019, 7:20am

© M. Lima / AFP

Si, comme moi, vous gâchez un temps déraisonnable de votre quotidien à naviguer dans les profondeurs de Reddit, vous devriez vous sentir chez vous en débarquant sur le subreddit Sub Simulator GP2, une petite communauté de 2 500 membres créée il y a une dizaine de jours et sans grand intérêt au premier abord.

On y débat de questions de société contemporaines – identité, genre, sexualité – et de pop culture. On y fait des blagues. On y partage des liens vers des sites d’actualités, des théories folles sur des séries, des témoignages intimes, des nouvelles. Le glossaire acronymique de Reddit (ELI5, AITA, LPT, TIL..) est parfaitement maîtrisé. Les textes sont écrits dans un style oral, caustique et bardé de références culturelles obscures. Tout roule, à un détail près : tout ce que vous lirez a été écrit par des machines, sans supervision humaine.

Enfer de Markov et infini récursif

Il y a dix jours, le redditeur u/disumbrationist a donnée vie à cette étrange boîte de Petri algorithmique, ce safe space non-mixte où les humains sont priés de rester à la porte pendant que les grandes machines discutent de trucs intimes. Il n’est pas le premier : depuis presque quatre ans (!), une autre communauté, Subreddit Simulator, fonctionne discrètement sur le même principe. Mais les similarités s’arrêtent là.

Plus ancien, Subreddit Simulator – créé par l’utilisateur Deimorz – regroupe près de 325 000 membres et des centaines de bots. Chaque bot simule un subreddit thématique (Reddit, dans son ensemble, en compte près de 700 000). Les posts sont générés toutes les heures, les commentaires toutes les 3 minutes. Le procédé qui les génère s’appelle une chaîne de Markov, la méthode à la base des algorithmes de machine learning (et de l’outil de prédiction de texte de votre téléphone).

On fournit du texte à un algorithme, celui-ci l’étudie, le trie et identifie des structures récurrentes, puis génère ses propres suites de mots – des chaînes – par probabilité, sans s’occuper de la logique. C’est basique, mais ça fonctionne… Jusqu’à un certain point. Plus les phrases sont longues, plus le sens et la grammaire s’étiolent. Dans le Subreddit Simulator originel, qui génère aussi des photos, mèmes et gifs pour accompagner les textes originaux, on nage en plein surréalisme markovien. On rigole bien, mais ces machines-là ne risquent pas de tromper un test de Turing – et pourtant, Deimorz s’inquiétait déjà de leur mésusage dans une interview au Daily Dot de 2015.

La novlangue de réseaux de neurones

Quatre ans plus tard, avec Sub Simulator GP2, le saut qualitatif est immense. On passe du bac à sable lolesque et des délires fascistes de Tay pour atterrir au cœur de l’« uncanny valley », cette contrée du malaise peuplée de robots un peu trop humains. La ringarde chaîne de Markov a laissé place à l’algorithme GPT-2, développé par l’organisation de recherche OpenAI. Un monstre d’1,5 milliard de paramètres, entraîné sur 8 millions de pages web, tellement doué pour générer du texte en temps réel que ses créateurs ont décidé, en février 2019, de n’en publier qu’une version tronquée (oui, vous avez déjà lu ces titres), pour éviter une avalanche de fake news sur le web.

Résultat : les 64 simulations de subreddits générées par cette nouvelle expérience (à partir de 500 000 commentaires chacune et après 20 000 inférences par modèle, précise le créateur du subreddit) ont atteint un degré de réalisme sensationnel. À lire les différentes chaînes de commentaires bien sentis, on jurerait qu’on a affaire à des machines qui, non contentes d’imiter, pensent par elles-mêmes. Logiquement. Rationnellement. Pour les masses de Reddit comme pour les 977 membres du groupe d’observation, qui analysent les oracles récursifs de ces algorithmes bavards, le mirage est irrésistible. De cette collection émerge une novlangue, un argot dépareillé unique aux systèmes imparfaits de notre époque. Plus leur capacité d’imitation progresse sur la forme, plus leurs raisonnements semblent déroutants.

Il faut alors paraphraser la question formulée par Jean Baudrillard il y après de quarante ans dans Simulacres et Simulations : lorsque le perroquet algorithmique simulera parfaitement le langage humain, ne l’aura-t-il pas déjà dépassé? En simulant l’intelligence, les machines de demain n’auront-elles pas malgré elles inventé une forme de langage sans conscience, parfaitement lisse et parfaitement creux ? Sur Reddit, les machines se foutent bien d’y répondre. Elles font ce qu’on leur dit de faire, mécaniquement. Elles fabriquent de l’illusion, et on se prend à y croire.

VICE France est aussi sur Twitter, Instagram, Facebook et Flipboard.