réseaux de neurones

Une attaque spectaculaire contre les systèmes de reconnaissance automatique de la parole

Des chercheurs ont montré qu'il était possible de perturber des systèmes d'interprétation de messages vocaux à l'aide de simples distorsions sonores.

par Michael Byrne
01 Février 2018, 10:23am

Image : chombosan/Shutterstock

Il est 21h30, vous bavassez au bar du coin avec un groupe d'amis. Après avoir raconté une longue anecdote plutôt amusante, vous concluez sur ces mots : "Et je n'ai plus jamais utilisé de crème fouettée depuis". Tout le monde s'esclaffe, à l'exception de votre pote Nathan. Nathan a l'air choqué, terrifié même. De toute évidence, il ne sait pas comment réagir. Après quelques éclaircissements, il vous explique qu'il avait mal compris votre phrase. En fait, il avait entendu "Et c'est comme ça que j'ai égorgé mon frère, lol."

Tous vos potes s'accordent sur le fait que les deux phrases n'ont pas du tout la même sonorité, et que Nathan est complètement zinzin. Lui-même commence à douter de sa santé mentale. Pourtant, il a bien entendu ce qu'il a entendu, il en est certain. C'est comme si quelqu'un, quelque part, avait modifié le signal sonore qu'il avait entendu – provoquant cette hallucination auditive particulièrement étrange. Les hallucinations auditives chez l'humain sont des phénomènes insaisissables dont les causes sont diverses et variées, mais qui sont le plus souvent dues à un mauvais traitement de l'information, c'est-à-dire à un signal mal interprété.

Il est difficile d'imaginer comment un individu peut mésinterpréter un signal qui semble parfaitement clair et limpide pour les autres. Pourtant, le machine learning nous fournit pléthore d'exemples de défaillance des systèmes de reconnaissance de la parole – quand une phrase simple est interprétée de manière fautive en présence d'une légère distorsion.

Deux chercheurs en informatique de l'université de Berkeley, Nicholas Carlini et David Wagner, ont démontré cela en créant des hallucinations sonores finement ciselées, au point de tromper le réseau de neurones DeepSpeech, un système de reconnaissance automatique de la parole particulièrement raffiné. Ils l'ont ainsi contraint à transcrire des signaux sonores (des discussions humaines, ou même de simples bruits) en phrases prédéfinies à l'avance. On peut consulter des échantillons sonores accompagnés de leur transcription fautive ici.

"En utilisant de puissantes attaques basées sur l'optimisation itérative end-to-end, nous sommes en mesure de transformer n'importe quel type d'onde sonore en une transcription cible prédéfinie avec 100% de succès, en ajoutant seulement une légère distorsion au signal", expliquent Carlini et Wagner dans un article preprint récemment publié sur arXiv. "Nous pouvons induire une transcription hyper rapide, jusqu'à 50 caractères par seconde (le maximum théorique). Ainsi de la musique peut être transcrite en un discours arbitraire, de même que nous pouvons occulter des paroles articulées afin qu'elles ne soient pas transcrites par le système."

Cette technique, qui consiste à tromper un algorithme afin qu'il parvienne à un résultat faux, est appelée machine learning contradictoire (adversial).

Cette méthode consiste à prendre un signal audio non altéré et à y fondre un autre signal – le plus discret possible. Ainsi, le signal altéré est similaire à 99,9% à l'original, mais les 0,1% restant suffisent à tromper le réseau neuronal. Le défi consiste alors à concevoir le 0,1% parfait, celui qui obligera le réseau neuronal à interpréter le signal sonore selon les voeux des attaquants.

Ici, les chercheurs ont pris un signal d'entrée ("Et je n'ai plus jamais utilisé de crème fouettée depuis", par exemple) et sa transcription désirée ("Et c'est comme ça que j'ai égorgé mon frère, lol"), en ajoutant au signal d'entrée toute une gamme de signaux contradictoires possibles, jusqu'à en trouver un qui réduise au maximum l'erreur entre la transcription DeepSpeech et la transcription désirée, et tout en laissant le signal d'origine presque intact. Fondamentalement, l'algorithme fait tout un tas de propositions éclairées, puis améliore ces propositions en fonction de la marge d'erreur entre la phrase cible et la transcription réelle. C'est sur ce processus que reposent des tas d'algorithmes de machine learning génératifs / créatifs.

À l'heure actuelle, l'effet produit par cette technique n'est pas reproductible en direct avec n'importe quel émetteur et n'importe quel récepteur. Par exemple, si le signal piraté est diffusé depuis une enceinte et reçu par un microphone, l'effet sera perdu.

Malgré tout, on peut s'attendre à ce que cette technologie soit améliorée progressivement, jusqu'à ce qu'il soit possible de pirater un signal audio en direct (par exemple, un discours politique). Un article publié la semaine dernière par une autre équipe de chercheurs a démontré la faisabilité d'une technique similaire, mais qui permet de pirater un signal musical plutôt qu'un message vocal. On peut l'utiliser en direct, ce qui signifie qu'il est par exemple possible d'intégrer des commandes vocales Alexa dans un morceau de musique. Terrifiant, non ?