Quand les machines apprennent à reconnaître un troll

Quand les machines apprennent à reconnaître un troll

Les community managers du monde entier sont au bord du suicide. Il est temps de les aider à modérer les commentaires d'articles.
08 août 2016, 12:00pm

En tant que lecteurs assidus des choses écrites sur Internet, nous nous confrontons régulièrement à la pire abomination enfantée par le support numérique : le commentaire d'article. Lorsque celui-ci est long, hors de propos, fait référence à la bien-pensance, à la pensée unique et au film Idiocracy, il y a de bonnes chances qu'il échoue dans la funeste catégorie de ce que l'on appelle, faute d'un mot plus fort, le TROLL. Surtout s'il se termine par « excusez-moi d'avoir une opinion » et emploie plus d'une fois les concepts de « mouton, » « abruti » et « liberté d'expression. »

Le troll, même injurieux, peut être divertissant. Il faut dire que des années de pratique du web nous ont rendus, si ce n'est plus coulants, plus indifférents au verbiage des individus persuadés d'avoir atteint le plus haut stade de la perspicacité. Pourtant, tout le monde ne peut pas se permettre d'être mêlé d'une façon ou d'une autre à une tirade inspirée de ce bon vieux Henry de Lesquen. Ça ne fait pas propre. Les marques, les organisations et les personnages publics, en particulier, sont terrorisés à l'idée d'être associé à un troll d'une manière ou d'une autre. Or, les accidents sont fréquents.

En 2013, Facebook a été accusé d'héberger des pages incitant à la haine telles que « Violently raping your friend just for laughs » ou « Kicking your girlfriend in the fanny because she won't make you a sandwich ». Et parce que le système de promotion publicitaire de Facebook permet de payer pour augmenter la portée de n'importe quel post, le réseau social affiche régulièrement du contenu sponso pas très réglo. Il faut dire qu'avec un tel volume de conneries à vérifier, on comprend que la modération humaine laisse parfois échapper une ou deux pubs pour une théorie pseudo-scientifique ou un génocide ethnique de temps en temps.

Outre les trolls, les sites web et réseaux sociaux aimeraient éviter que leurs utilisateurs ne se trouvent constamment exposés au harcèlement, aux menaces et aux comportements antisociaux en général. Ils ont tendance à casser l'ambiance et à faire fuir ces mêmes utilisateurs (ce dont Twitter n'a pas vraiment besoin en ce moment). Internet est plus reposant quand on ne se fait pas traiter de putasse tous les trois paragraphes. Or, la modération et la curation sur Internet exigent un gros investissement en temps, en énergie et en moyens humains. Pour cette raison, depuis plusieurs années, des ingénieurs acharnés tentent de trouver un moyen d'éliminer de manière automatique tous les énoncés qui feraient référence au IIIe Reich avec un peu trop d'insistance. Pensez seulement à la diminution du taux de suicide chez les community managers.

Mais comment s'y prendre ? Prenons cet échantillon ma foi assez joli :

Une IA n'aura aucune peine à identifier ce genre de phrase de manière automatique. Le « ferme ta gueule sale… » peut permettre de le ranger d'entrée dans la catégorie des messages abusifs. Pour cela, il suffit simplement d'entraîner un algorithme à comparer le vocabulaire d'un énoncé donné avec une base de données de termes que l'on cherche à exclure (une blacklist), et éventuellement de mettre un petit coup d'analyse syntaxique par-dessus pour identifier les débauches de !!!!, les déserts de virgules et les appositions de prépositions qui caractérisent souvent l'expression de la haine. De fait, il y a une corrélation importante entre le manque de lisibilité d'un message et son caractère injurieux.

Malheureusement, cela ne suffit pas à identifier tous les trolls. Si « kill yrslef a$$hole » est un énoncé peu ambigu au vu des mots et de la syntaxe employés, il reste à fait possible de harceler, d'injurier ou de tenir des propos haineux en utilisant un langage châtié, comme le sait quiconque a déjà passé plus de cinq minutes sur un réseau social. Il est également possible d'insulter de manière discontinue, de telle sorte que le contenu injurieux doive être interprété à l'échelle d'un paragraphe ou d'un texte entier. Tout cela pose beaucoup de problèmes aux IA, qui sont par ailleurs incapables de détecter le sarcasme, ce tour rhétorique très utile qui permet de railler autrui sans jamais avoir un mot plus haut que l'autre.

De nombreux chercheurs travaillent d'arrache-pied sur ce problème depuis plusieurs années. En outre, une équipe de Yahoo vient de faire une avancée considérable en matière de détection de langage abusif. En effet, elle a mis au point un algorithme capable de repérer les commentaires d'articles "limites" après l'avoir entrainé sur la base de données des articles Yahoo. La méthode s'appelle le word embedding (que l'on pourra traduire par « vectorisation du corpus »). Il s'agit d'un système de représentation sémantique des mots à l'aide de vecteurs, en plusieurs dimensions. On nourrit l'algorithme à l'aide d'authentiques commentaires d'articles, en très grandes quantités, afin qu'il apprenne quels mots sont généralement employés ensemble, avec telle structure syntaxique, et dans tel contexte, dans un énoncé de type « troll ». Cette méthode est plus fine que la simple détection de vocabulaire enregistré en liste noire, puisqu'elle prend en compte le contexte linguistique du mot et la combinaison des mots entre eux.

Il y a une corrélation importante entre le manque de lisibilité d'un message et son caractère injurieux.

Une fois que l'algo est bien entrainé, il n'y a plus qu'à le lâcher sur des commentaires d'articles qu'il ne connaît pas encore. En outre, la vectorisation de corpus a permis aux chercheurs d'identifier des messages abusifs avec une précision de 90%. Évidemment, le bât blesse à l'endroit des 10% restant. Les machines ne sont pas encore assez perfectionnées pour analyser des ambiguïtés simples dans des phrases courantes, puisque « le sens » leur manquera toujours. Elles se contentent de comparer des faits de langue. Pour elles, la sémantique n'est qu'un vaste paysage de mots arrangé en plusieurs dimensions ; un paysage pas assez subtil pour comprendre du contenu implicite, ou nécessitant des maitriser un contexte ou des références culturelles.

Les chercheurs précisent que l'algorithme censurera sans problème « Les Juifs tiennent les rênes du marché, salauds de Juifs, je les déteste !!! Si seulement Hitler avait fini le boulot !!! » mais pas « Tu suces des tampons périodiques toute la journée, non ? »

Allez, encore un effort.

Tout cela et bel et bien, mais ces avancées techniques ne permettront jamais de régler un problème de fond : faut-il systématiquement traquer et censurer les discours odieux sur le web, quitte à s'en isoler complètement et à masquer en partie certains phénomènes sociaux ? De fait, le biais de la chambre d'écho nous amène déjà à communiquer avec les personnes qui nous ressemblent le plus et à prendre cet échantillon de personnes pour un échantillon représentatif de la population. Cela peut ménager quelques surprises en période électorale, surtout par les temps qui courent.

Paradoxalement, le troll est parfois la seule créature capable de nous rappeler l'existence du monde réel. Ne le nourrissez pas trop, mais tout de même, gardez-le à l'oeil.