L'algorithme qui reconnaît les tweets des gens bourrés

Comment peut-on savoir qu’un message a été écrit par une personne bourrée ? Cet algorithme le sait.
Giulia Trincardi
Milan, Italy
18.3.16

Comment peut-on savoir qu'un message a été écrit par une personne bourrée ? L'horaire d'envoi ? Les lettres oubliées ou rajoutées maladroitement ? Le contenu gênant ? Peut-être en combinant tous ces facteurs et d'autres encore, parmi lesquels la présence des mots « j'ai un peu bu ».

Peut-on alors dire que tous les messages de gens bourrés se ressemblent ? Selon les chercheurs de l'université de Rochester, oui. En tout cas, ils sont suffisamment semblables pour qu'un algorithme puisse apprendre à les reconnaître.

La technologie et les alcooliques entretiennent d'excellents rapports ces derniers temps. Entre les robots qui nous tiennent compagnie quand on boit et les applis conçues pour nous empêcher d'envoyer des messages idiots – ceux qu'on est à peu près sûr de regretter le lendemain – l'humanité semble s'en remettre à la technologie, comme si elle était ce bon ami qui ne pose jamais de questions et sait toujours ce qui est bon pour nous. Mais en plus de nous soutenir dans les moments les plus ridicules liés à l'alcool, la technologie pourrait bien avoir quelque chose à nous apprendre sur nos habitudes, avec une précision inquiétante.

Nabil Hossain et ses collègues ont bâti un algorithme capable de déterminer si un tweet a été envoyé par une personne ivre, et si l'individu en question boit chez lui ou dans un bar quelconque.

En combinant des techniques de data mining et de machine learning et en exploitant la géolocalisation des tweets, les chercheurs sont parvenus à produire une véritable carte de la consommation d'alcool des habitants de New York et du comté de Monroe, où se trouve la ville de Rochester. L'objectif était de comprendre quel type de corrélation on pouvait établir entre le nombre de tweets « bourrés » et l'endroit d'où ils étaient envoyés, s'il s'agissait d'un lieu très fréquenté ou non, d'un domicile privé ou d'un bar, et comment les habitudes des gens se différenciaient entre la métropole et la campagne.

Pour apprendre à l'algorithme à reconnaître les « bons » tweets, les chercheurs ont d'abord sélectionné quelques mots-clés qui font explicitement référence à la consommation d'alcool (fête, boire, bière, etc.). « Julien est tellement bourré qu'il s'est mis à chanter du Britney Spears debout sur une table » serait par exemple un tweet immédiatement retenu par l'algorithme, alors que « Cette soirée est hyper chiante, personne ne boit » pourrait être plus difficile à interpréter. Voilà pourquoi les chercheurs ont engagé quelques personnes travaillant pour le Turc Mécanique d'Amazon (un service de crowdsourcing) afin qu'elles déterminent si les tweets en question parlent effectivement d'alcool et s'ils concernent leur auteur.

En d'autres termes, pour apprendre à l'algorithme à reconnaître des tweets de gens bourrés, ils lui ont fourni un modèle de base assisté par des cerveaux humains.

Pour déterminer si les tweets étaient envoyés depuis une maison ou depuis un lieu public, les chercheurs ne se sont pas contentés de regarder leur géolocalisation ; ils sont également isolés les tweets contenant des mots-clés relatifs au domicile (par exemple : télé, salle de bain, canapé, lit…), ils les ont à nouveau soumis aux personnes qu'ils avaient embauchées, et ils n'ont transmis à la machine que ceux qui avaient été validés, les recoupant avec d'autres facteurs tels que la géolocalisation du précédent tweet ou la position la plus fréquente.

Grâce à ce travail de précision, les chercheurs ont pu affiner les paramètres de l'algorithme jusqu'à le rendre capable « non seulement de distinguer les personnes qui parlent d'une certaine activité [en général] de celles qui parlent de se livrer elles-mêmes à cette activité, mais aussi de déterminer si ces personnes sont en train de s'y livrer ou si elles prévoient de le faire à l'avenir. »

La prochaine étape, maintenant que l'algorithme a appris à reconnaître les tweets que les gens font quand ils boivent, sera d'utiliser ces données pour mieux comprendre nos habitudes en matière de consommation d'alcool, sur les gens qui ont plus ou moins tendance à tweeter bourrés (et d'où), sur la manière dont notre consommation d'alcool a évolué au fil du temps (socialement et virtuellement), et éventuellement de repérer des situations dangereuses qui auraient pu nous échapper.

Évidemment, les utilisateurs de Twitter ne sont pas vraiment représentatifs de l'ensemble de la population (même à New York) ; comme le soulignent les chercheurs eux-mêmes dans la conclusion de leur étude, Twitter a une base d'utilisateurs plutôt jeune, alors que la consommation d'alcool est une pratique répandue à travers toutes les catégories d'âge. Mais, affirment-ils ensuite, « ces imprécisions sont un problème commun dans les méthodes d'échantillonnage ». Malgré ces quelques réserves, les données ainsi récoltées pourraient malgré tout nous fournir des informations précieuses pour la santé d'une communauté.

Et si vous vous sentez mal à l'aise en repensant à vos propres tweets envoyés quand vous étiez bourré, rassurez-vous : vous n'êtes pas seul.