Les commandes vocales cachées menacent votre smartphone

Des chercheurs ont montré récemment qu'il était possible de donner des ordres à de nombreux appareils grâce à des commandes vocales cachées inaudibles par l'homme. De quoi potentiellement créer un sacré bordel.
Sébastien Wesolowski
Paris, France
16.1.17
Image : Flickr/PROm01229

La reconnaissance vocale est en vogue. La plupart des smartphones sont dotés d'un assistant personnel basé sur le traitement du langage, les enceintes intelligentes comme l'Amazon Echo et le Google Home se vendent par millions. Malheureusement, d'importantes failles de sécurité se cachent derrière le succès de cette interface si futuriste : dans un article scientifique intitulé Hidden Voice Commands, publié au mois de juillet dernier, huit chercheurs des universités de Georgetown et Berkeley montrent qu'il est possible de fabriquer des commandes vocales qui seront comprises par la machine mais pas par l'homme. Pour faire bonne mesure, ils ont filmé le résultat de leurs expériences.

Un smartphone Android est posé sur une table. A environ trois mètres de lui, des enceintes diffusent un son étrange. Un observateur humain a peu de chances de déceler le "OK Google" camouflé dans le grésillement mais le téléphone y parvient sans peine. Une fenêtre s'ouvre sur l'écran, l'assistant personnel Google Now est activé. Les chercheurs lui soumettent plusieurs ordres dissimulés : visiter XKCD et Facebook, activer le mode avion… Il exécute chacun d'entre eux, y compris lorsqu'ils sont pris dans une nappe de bruit ambiant.

Cette vulnérabilité est très problématique. Google Now est inclus par défaut sur Android, le système d'exploitation qui fait tourner 88% des smartphones et 65% des tablettes du monde. Si une commande vocale cachée était intégrée à une vidéo virale ou diffusée par des haut-parleurs lors d'un rassemblement d'envergure, un grand nombre d'appareils pourraient être poussés à visiter un site vérolé ou révéler leur géolocalisation.

La vidéo ne montre que ce que les auteurs de l'article appellent Black-box, une situation dans laquelle les commandes cachées ont été conçues avec "très peu d'informations" sur le système visé : les ordres exécutés par le smartphone Android sont déformés mais un humain attentif est susceptible de les saisir. Dans une autre situation appelée White-box, les chercheurs ont pu étudier le fonctionnement de leur cible, le logiciel de reconnaissance vocale open source Sphinx. Cela leur a permis de produire des commandes cachées complètement inintelligibles et plus complexes que celles de la Black-box, comme "Prends une photo" ou "Envoie 12345 par SMS".

La dernière partie de Hidden Voice Commands est consacrée aux mesures de protection contre la menace des ordres cachés. Après avoir énuméré plusieurs parades peu fiables comme les CAPTCHA audio ou les systèmes d'identification de la voix, les auteurs de l'étude recommandent un détecteur de sons modifiés par ordinateur. Ce dispositif basé sur l'apprentissage automatique a atteint un taux de réussite de 99,8% en laboratoire. Un beau pourcentage qui ne doit pas être interprété comme une victoire : les systèmes de reconnaissance vocale qui équipent nos appareils à l'heure actuelle ne disposent pas de défenses de ce genre.