Questo algoritmo studia il comportamento umano guardando le serie TV

Sottoposto a binge watching pesante, questo algoritmo impara a prevedere il comportamento delle persone.

di Giulia Trincardi

Milan, IT

28.6.16

Grab tratto dallo studio

Predire un'azione umana è un compito tutt'altro che semplice per un computer: le persone equivalgono a uno sfracello di dati da elaborare, senza contare le informazioni che riguardano il contesto in cui siamo immersi e che contribuiscono a determinare i nostri comportamenti.

Fornire a un algoritmo un database di informazioni sufficienti su cui possa basarsi per anticipare il comportamento umano è sicuramente un bel problema: come fa un'intelligenza artificiale a imparare a interpretare i nostri gesti e su cosa può basarsi per farlo? Una risposta, a ben pensarci, c'è: le serie TV.

Un gruppo di ricercatori del Massachussetts Institute of Technology, guidato da Carl Vondrick del laboratorio CSAIL, ha appena pubblicato l'articolo relativo a un esperimento in cui ha dato in pasto a una rete neurale ore e ore di video, con l'obiettivo di insegnare all'algoritmo come prevedere un gesto in base a quello subito precedente.

L'algoritmo, ha spiegato Vondrick a Motherboard in una email, "impiega le tecniche del deep-learning, un settore dell'intelligenza artificiale che utilizza sistemi chiamati 'reti neurali' per insegnare ai computer a studiare massicce quantità di dati per riconoscerne autonomamente i modelli presenti." Le reti neurali sono alla base degli ultimi progressi informatici legati all'intelligenza artificiale, lo abbiamo visto l'anno scorso con l'esperimento di Google Research e più recentemente con il primo film scritto da una IA. In genere, ciò che si fa è somministrare immagini alle reti neurali, in modo che imparino a distinguere gli elementi che le formano—a leggere la realtà quasi come facciamo noi, in altre parole.

Nel loro esperimento, i ricercatori del CSAIL hanno invece utilizzato spezzoni di video, la cui differenza principale rispetto alle immagini, ha spiegato Vondrick, sta nella componente temporale. "Abbiamo frammentato i video in fotogrammi e somministrato alla rete neurale prima un frame, poi quello immediatamente successivo a qualche secondo di distanza uno dall'altro. Poi abbiamo chiesto alla rete di predire una serie di statistiche sul secondo frame, fornendole solo il primo dei due." Una sorta di gioco del Memory temporale, insomma, in cui, una volta viste abbastanza scene, la rete neurale artificiale ha cercato di ricostruire un'azione B avendo solo quella A.

I video, inoltre, erano privi di annotazione o dati pre-compilati: il gruppo ha creato un database enorme di immagini animate senza prima catalogarle. Questo dettaglio, ha detto Vondrick, ha permesso agli scienziati di risparmiare tantissimo tempo e risorse. "I dati non catalogati [rappresentano una risorsa] promettente," ha spiegato Vondrick, "perché non c'è bisogno di impiegare persone per organizzare maniacalmente ogni pezzo di informazione. Questa cosa ci ha permesso di usare un dataset molto più ampio per il training." C'è però anche un aspetto di sfida ulteriore in questa scelta, "perché la macchina deve imparare tutto da sola."

Oltre alle azioni, la rete neurale ha imparato anche a riconoscere e predire gli oggetti visualizzati nei video, a dimostrazione del potenziale generico dell'algoritmo. "Gli esperimenti con gli oggetti mostrano che l'algoritmo non lavora solo sulle serie televisive. Abbiamo allenato la rete su video fatti in casa con la GoPro, ed è stata in grado di predire quale oggetto sarebbe comparso nella visuale entro cinque secondi," ha raccontato Vondrick.

Grab tratto dallo studio

L'autonomia della rete neurale è sicuramente tra gli aspetti più affascinanti dell'esperimento: "il sistema impara a riconoscere da solo gli elementi fondamentali per predire il futuro," ha spiegato Vondrick. Dopo aver studiato circa 600 ore totali di immagini in movimento, infatti, l'algoritmo "ha tratto le proprie conclusioni in termini di correlazioni tra le immagini e le azioni eventuali." Per questo motivo, non hanno avuto bisogno di capire quali video funzionassero meglio per il suo apprendimento, perché l'algoritmo da solo sapeva su cosa gli convenisse concentrarsi. "Ad ogni modo," ha specificato Vondrick, "sembra che usi in particolare alcuni indizi, come le pose delle persone e il tipo di ambiente."

Il primo obiettivo dell'esperimento era capire come applicare la tecnologia base delle reti neurali all'identificazione e anticipazione delle azioni umane. "Quando abbiamo mostrato [alla rete neurale] un video in cui le persone stanno per eseguire un'azione su quattro, l'algoritmo è riuscito ad anticipare correttamente l'azione più del 43 percento delle volte," ha raccontato Vondrick, "mentre gli algoritmi precedenti ci riuscivano solo il 36 percento delle volte.

La quantità di dati su cui la rete neurale si è allenata è enorme, ma, in realtà—come ha specificato Vondrick—resta paragonabile all'esperienza di vita di un neonato. Il passo successivo nell'esperimento sarà vedere come si comporta il sistema una volta esposto a anni di video.

I sistemi a visione predittiva, in grado di anticipare il futuro, costituiscono un gradino cruciale dell'intelligenza artificiale

A questo punto è forse legittimo chiedersi: quali possono essere gli utilizzi pratici di un algoritmo che passa il suo tempo a guardare video e serie televisive?

Sappiamo che l'intelligenza artificiale rappresenta una delle promesse più importanti del futuro prossimo della tecnologia, e ogni giorno siamo testimoni delle avvisaglie della rivoluzione che comporterà, nel bene o nel male: pensate alle Google Car e all'intelligenza artificiale che prevede i cyber-attacchi (altro progetto del CSAIL), ma anche a quelle che stanno imparando a scrivere libri, comporre musica e a diventare il peggior utente di Twitter della storia.

L'algoritmo fabbricato da Vondrick e colleghi non sta semplicemente imparando a guardare telefilm—probabilmente uno dei comportamenti più tipici del genere umano oggi—ma anche e soprattutto a comprendere gli esseri umani, di cui il cinema è, in fondo, un comodissimo manuale di studio.

I sistemi a visione predittiva, in grado di anticipare il futuro—in questo caso, delle azioni umane—costituiscono un gradino cruciale dell'intelligenza artificiale e le loro due applicazioni più interessanti, a detta di Vondrick, sono la robotica e la sanità. "Potrebbero aiutare i robot a navigare meglio attraverso gli ambienti," ha detto, "Ma potrebbero anche essere utilizzate nelle videocamere intelligenti negli ospedali e nelle strutture di assistenza in generale, dove potrebbero avvisare in caso di emergenza, se qualcuno fosse sul punto di cadere o farsi del male. In definitiva, la visione predittiva è un passo importante verso macchine in grado di alleviare, o persino evitare certi tipi di incidente."

Come sempre quando si tratta di tecnologie intelligenti, è facile immaginare un mondo di conseguenze catastrofiche dove tutto ciò che sfrutta le leggi matematiche per predire le azioni umane ha un retrogusto alla Minority Report e ci sembra impossibile ridurre la complessità del comportamento umano a stringhe di numeri, senza dover subire un contrappasso drammatico. D'altro canto, le reti neurali imparano dall'uomo e proprio per questo aprono a dilemmi etici, che è giusto esplorare, ricordandoci che una tecnologia non è il suo utilizzo: le reti neurali sapranno anche imparare da sole, ma devono imparare comunque da qualcuno.

I robot in grado di predire le nostre azioni potrebbero essere un passo più vicini e sta a noi capire come contribuiranno alle nostre vite. Almeno Vondrick e i colleghi del CSAIL sembrano dipingere un futuro di tecnologia empatica, oltre che intelligente. "Non vogliamo che un robot sposti una sedia proprio mentre stiamo per sederci," ha detto. Mi chiedo in quanti film ci sia una scena del genere.

Tagged:motherboard showserie tvalgoritmiTechMotherboard