Google fait le fier avec son intelligence artificielle DeepMind, mais le Google chinois, Baidu, peut se vanter des capacités incroyables de son nouveau bébé, DeepSpeech.
Lancé en décembre 2015, DeepSpeech est un système de reconnaissance automatique de la parole qui utilise des réseaux de neurones artificiels afin de transcrire un input vocal en texte. Jusque là, la plupart des systèmes capable de transcrire la parole, comme Siri, devaient effectuer cette transcription en plusieurs étapes de manière beaucoup plus laborieuse.
Videos by VICE
Le système a appris comment identifier et transcrire l’anglais et le mandarin. Selon un article de Baidu publié en février 2016, son taux de reconnaissance de la parole est meilleur que celui de la plupart des locuteurs de mandarin (en d’autres termes, si vous avez une mauvaise élocution, DeepSpeech comprendra mieux ce que vous dites que votre entourage). Baidu a annoncé en avril qu’il commercialisera sa technologie en collaboration avec Peel, une application disponible en anglais et en mandarin pour Android, puis pour iOS.
Le développement de DeepSpeech a été presque totalement éclipsé par DeepMind, le champion de Google, surtout depuis les victoires d’AlphaGo qui ont embrasé la presse pendant plusieurs semaines. Pourtant, la reconnaissance automatique de la parole pourrait transformer durablement la façon dont les humains interagissent avec leurs appareils électroniques, en Chine tout particulièrement.
Utiliser l’alphabet latin sur un téléphone portable n’est pas particulièrement difficile : taper des caractères sur un clavier virtuel est rapide et ne demande aucune habileté particulière. Écrire en mandarin, en revanche, est beaucoup plus fastidieux. C’est ce qu’explique Adam Coates, directeur de l’antenne américaine du AI Lab de Baidu, en Californie.
Il existe plus de 80 000 caractères chinois, et même si la plupart des locuteurs du mandarin en utilisent aujourd’hui entre 1 000 et 3 500 seulement, l’alphabet chinois est très dur à maitriser. Chaque caractère représente un « mot » ou une unité de signification. Pour rendre l’écriture de cette langue plus facile, on utilise généralement des interfaces spéciales afin d’écrire en « pinyin, » le système standard utilisant l’orthographe romanisée pour la translittération chinoise.
En 2015, 89% de la population chinoise utilisait Internet via mobile, contre 75,1% en Amérique du nord par exemple (selon We are Social et Statista). D’autre part, les Chinois ont une manière bien particulière d’utiliser leurs téléphones, selon Adweek : non seulement ils utilisent des logiciels de transcription, mais ils regardent également beaucoup plus de vidéos en streaming que les anglophones et suivent plus souvent les liens publicitaires.
« En Chine, parce que les interfaces texte sont particulièrement difficiles à utiliser, les utilisateurs de téléphones mobiles ont développé des comportements spécifiques pour contourner ce problème ; le téléphone est leur principal support d’accès à Internet, » explique Coates. Par exemple, les Chinois sont habitués à retirer de l’argent aux distributeurs automatiques en utilisant des QR codes, une habitude qui nous est tout à fait étrangère.
Pour cette raison, Coates estime que les Chinois seront plus enclins que les autres à utiliser des outils tels que DeepSpeech.
En outre, DeepSpeech est également capable de transcrire « la langue hybride, » une combinaison entre le mandarin et l’anglais fréquemment utilisée en Chine, explique Coates. « Les mots anglais sont très populaires, et parce que DeepSpeech apprend à partir des habitudes de rédaction des utilisateurs, il sait désormais faire ses propres transcriptions hybrides, » ajoute-t-il. « Il maitrise à la fois les caractères latins et les caractères chinois. Quand quelqu’un dit ‘Je possède un iPhone’, il rédigera la phrase en mandarin avant de changer de clavier au moment opportun pour écrire iPhone en caractères latins. »
Selon Coates, les utilisateurs de smartphones chinois utiliseront prochainement des commandes vocales pour déverrouiller des portes, allumer la lumière de leur domicile, donner des ordres à leur voiture, etc, dans un futur proche. L’objectif de son laboratoire est d’atteindre au moins 100 millions d’utilisateurs de téléphones portables. Sachant qu’il existe actuellement 900 millions de personnes parlant le mandarin à travers le monde, son objectif ne semble pas si disproportionné que cela.