I cinesi sono davvero pronti ad abbandonare la scrittura?

Il riconoscimento vocale basato sulle reti neurali potrebbero rivoluzionare per sempre il modo in cui le persone usano i loro dispositivi.

di Daniel Faggella

6.5.16

Foto: Nelson Ching/Bloomberg via Getty Images

Google avrà anche DeepMind, ma Baidu, l'equivalente cinese di Google, ha Deep Speech.

Deep Speech, che ha debuttato ufficialmente a dicembre 2015, è un sistema di riconoscimento vocale che utilizza una rete neurale artificiale per tradurre un input audio direttamente in testo scritto. La maggior parte dei sistemi di riconoscimento vocale come Siri, invece, si basano su tutta una serie di processi di carattere ingegneristico per effettuare le traduzioni.

Il sistema ha imparato come riconoscere e trascrivere sia l'inglese che il mandarino, e stando a quanto riportato in un documento pubblicato da Baidu a febbraio 2016, vanta un tasso di riconoscimento più preciso di quello della maggior parte dei madrelingua mandarini. Baidu ha annunciato ad aprile che avrebbe lanciato la tecnologia di deep speech in collaborazione con Peel, una app che funziona come un telecomando smart, che sarà disponibile sia in inglese che in mandarino prima su Android e poi su iOS.

Per quanto Deep Speech non abbia ricevuto lo stesso tipo di attenzione che è stata riservata ad AlphaGo, il campione di deep-learning di Google, la tecnologia di riconoscimento vocale potrebbe rivoluzionare per sempre il modo in cui le persone interagiscono con i loro dispositivi mobili nel giro di un decennio—specialmente per gli utenti in Cina.

Se digitare lettere romane per chi parla inglese è una faccenda relativamente rapida e facile, digitare in mandarino fa perdere un sacco di tempo, ha detto Adam Coates, direttore dell'AI Lab di Baidu nella Silicon Valley, a Sunnyvale, in California.

Ci sono oltre 80.000 caratteri in cinese anche se la maggior parte delle persone che parlano mandarino oggi ne usa soltanto tra le 1.000 e le 3.500, e ogni carattere in genere rappresenta una 'parola' o significato. Per semplificare la vita a chi digita in cinese, si usano diversi editor di input per digitare in "pinyin," il sistema standard che converte il cinese in lettere romane.

La tecnologia di riconoscimento vocale potrebbe rivoluzionare per sempre il modo in cui le persone interagiscono con i loro dispositivi mobili—specialmente per gli utenti in Cina.

Nel 2015, l'89 percento della popolazione cinese connessa a internet usava dispositivi mobili, rispetto al 75,1 percento dell'America del Nord, stando a quanto riportato da We Are Social e Statista. In aggiunta, il modo in cui gli utenti cinesi interagiscono con i loro cellulari è diverso da quello della maggior parte dei madrelingua inglesi, secondo Adweek. Non solo usano più software di trascrizione, ma guardano anche più video e interagiscono molto più spesso con gli annunci pubblicitari su mobile.

"In Cina, dato che la questione delle interfacce è più complessa, gli utenti mobile hanno abitudini piuttosto sofisticate, perché è quella la loro principale via d'accesso a internet," ha detto Coates. Per esempio, gli utenti cinesi sono abituati a pagare alle macchinette con i loro telefoni o codici QR, mentre per Coates la cosa suona ancora strana.

Per questa ragione, pensa che gli utenti cinesi adotteranno strumenti di traduzione discorso-testo come Deep Speech più rapidamente di quanto gli occidentali abbiano fatto con Siri o Google Now.

Deep Speech è anche in grado di trascrivere "discorsi ibridi," un termine che indica la combinazione di mandarino e inglese usata da molte persone che parlano mandarino, ha detto Coates. "'iPhone' per esempio è una parola molto popolare e dato che il sistema è interamente data-driven, impara a fare trascrizioni ibride da solo," ha detto Coates. "Dispone sia dei caratteri inglesi che di quelli mandarini e impara che quando qualcuno dice 'Ho un iPhone in mandarino', lui deve passare all'inglese e far comparire la parola 'iPhone' in caratteri romani."

Nella visione di Coates, presto gli utenti in Cina e nel resto del mondo useranno la voce per fare cose come aprire le porte, spegnere la luce, parlare alle automobili e molto altro. L'obiettivo del suo laboratorio è arrivare ad almeno 100 milioni di utenti—considerato che ci sono oltre 900 milioni di persone che parlano il mandarino come prima lingua e lottano ogni giorno per digitare parole sui loro telefoni, non sembra un piano troppo ambizioso.

Tagged:TechMotherboard