Publicité
Motherboard

Comment l'IA nous aide à comprendre le phénomène des fusillades en série

Aux États-Unis, l'amendement Dickey empêche les organisations de financer des recherches promouvant la régulation des armes à feu : on a donc confié la tâche aux machines.

par Jordan Pearson
17 Octobre 2016, 7:00am

Image : Shutterstock

Aux États-Unis, on parle désormais d' « épidémie » de fusillades. Pourtant, le financement fédéral de la recherche sur la violence armée n'a pas augmenté depuis 1996 à cause de l'Amendement Dickey, soutenu par la NRA, qui interdit de « défendre ou de promouvoir la régulation des armes à feu. » Cet amendement empêche donc les Centres pour le contrôle et la prévention des maladies (CDC) de mener des recherches sur ce sujet ô combien important.

Puisque les chercheurs américains n'ont pas le droit d'essayer de mieux comprendre les tenants et les aboutissants de la violence armée aux États-Unis, ils ont décidé de contourner l'interdiction en confiant la tâche à des machines.

Le 25 septembre, deux chercheurs en informatique de l'Université de Pennsylvanie, Ellie Pavlick et Chris Callison-Burch, ont dévoilé une nouvelle base de données soigneusement annotée répertoriant les occurrences de fusillades sur le territoire américain ; c'était à l'occasion de Bloomberg Data for Good Exchange Conference, à New York. La base de données a été créée par des employés de la plateforme Turc Mécanique d'Amazon, qui ont répertorié un millier d'articles de presse faisant état de ces actes de violence, explique Pavlick.

L'équipe prévoit de publier sous peu l'ensemble de la base de données sur laquelle les chercheurs ont entrainé leurs algorithmes selon une méthode de machine learning. Leur idée, c'est qu'il est possible de maintenant une base de données exhaustive sur la violence armée aux Etats-Unis en temps réel sans avoir recours à une main d'œuvre coûteuse. En d'autres mots, les machines pourraient réaliser ce travail pénible plus rapidement que les humains, et pour moins cher.

« Actuellement, nous disposons d'un certain nombre d'outils adaptés à cette tâche ; nous avons seulement besoin de gens capables de les adapter, » ajoute Pavlick.

« Une fois que le système est mis au point, calibré, configuré, mis en route, il tourne quasiment à coût zéro, » poursuit-elle « Il nous faut des humains pour nettoyer les données, mais cela coûte bien moins cher que de payer des chercheurs ou des bureaucrates pour maintenir la base de données. »

La méthode de machine learning choisir par Pavlick et Callison-Burch s'appelle « traitement automatique du langage naturel » ou TALN. Cette technique permet aux machines d'extraire des informations de textes écrits par des humains, une opération difficile étant donné la polysémie des mots que nous employons, et l'importance du ton, du style et du registre d'un texte pour son interprétation.

« La priorité est de produire des arguments fondés sur des faits. »

Le traitement du langage naturel doit également composer avec les biais possibles du système. De nombreuses bases de données TALN sont créées par des humains, et sont donc potentiellement pétries de biais sexistes ou racistes dues aux annotations des employés travaillant sur les sources. Ce genre de biais peut être très dommageable dans le sens où il influe sur l'ensemble des résultats issus de l'analyse de la base de données.

« Les questions et instructions que nous présentons aux annotateurs sont objectives. En général, on leur demande de surligner des mots du texte, pas de donner leur opinion, » explique Pavlick. « Cependant, parfois, les annotations correspondent plus ou moins au texte intégral, ou ne sélectionnent que certains noms et certains lieux. »

Il faudra bien sûr analyser les données plus en profondeur pour prédire où les biais pourraient survenir, mais en l'état actuel des choses, explique Pavlick, l'urgence est de produire des données exploitables sur la violence aux États-Unis et ses conséquences.

« Les gens se contentent de spéculer ; ils disent par exemple que les tueries de masse sont perpétrées par des terroristes islamistes, ou que les noirs sont uniquement tués par d'autres noirs, » ajoute Pavlick. « Il faut couper court à ces fantasmes avec des données solides. Sur ce sujet, la priorité est de produire des arguments fondés sur des faits. »