Questa intelligenza artificiale usa i propri ricordi per giocare ai videogiochi

I ricercatori di Uber hanno trovato un modo vagamente inquietante per far completare 'Montezuma's Revenge' e 'Pittfall!' all'intelligenza artificiale Go-Explore: dotarla di curiosità e memoria.

di Matteo Lupetti

Asciano, IT

5.12.18

uber intelligenza artificiale videogiochi memoria e curiosità

Montezuma's Revenge, immagine via YouTube. Blade Runner, immagine via IMDB. Composizione: Motherboard

I videogiochi sono perfetti per sperimentare intelligenze artificiali capaci di imparare, perché sono pieni di ricompense che educano il giocatore (e quindi potenzialmente anche un’IA) a compiere alcune azioni e a evitarne altre. Salti su un funghetto e ottieni punti, vieni colpito e muori. È come dare un biscottino a un cane per premiarlo.

Alcuni vecchi videogiochi — come Montezuma’s Revenge e Pitfall!, entrambi usciti per Atari 2600 negli anni Ottanta — presentano però sfide aggiuntive per le intelligenze artificiali. Questi videogiochi hanno ricompense rare e spesso difficili da interpretare e, a volte, è necessario tornare indietro ed esplorare nuovamente aree già visitate per proseguire; le intelligenze artificiali non sono particolarmente brave in queste due situazioni — e, in un certo senso, come non capirle: provate voi Montezuma’s Revenge se pensate che sia un gioco facile.

Per completare questi giochi con successo, in altre parole, sono necessarie due caratteristiche di pensiero molto umane: la memoria e la curiosità. Ora, un progetto di ricerca di Uber ha provato a dotare un’intelligenza artificiale di entrambe, con risultati incoraggianti, per quanto vagamente inquietanti.

L’assenza di ricompense frequenti disorienta le macchine — perché non hanno indizi su quali siano le azioni corrette da compiere —, ma esiste da tempo una soluzione parziale a questo problema: impostare delle “ricompense intrinseche” premiando le IA per azioni corrette ma altrimenti non suggerite. Per esempio, un’IA può essere ricompensata quando esplora zone nuove.

Anche con questi sistemi le IA avevano però grossi problemi ad affrontare Montezuma’s Revenge e Pitfall!, a causa del secondo inghippo: si dimenticavano di tornare indietro a esplorare luoghi già attraversati.

Immaginate questa situazione: l’IA si trova davanti a un bivio, sceglie la strada di sinistra, la esplora e resta bloccata perché le manca una chiave. È possibile che l’IA torni indietro, imbocchi il corridoio di destra e trovi la chiave, ma cosa la convincerà a prendere nuovamente il corridoio di sinistra? Per arrivare a dove si era bloccata prima, deve attraversare molteplici zone già esplorate per cui non otterrà più alcuna ricompensa intrinseca per l’esplorazione.

Nel 2017, alcuni ricercatori hanno provato a far giocare un'IA programmandola affinché non si concentrassero sulle normali ricompense del videogioco, ma si mettessero in situazioni di cui non conoscessero ancora le conseguenze — perché insomma fossero curiose. In un esperimento, i ricercatori hanno tolto ogni ricompensa da Super Mario Bros., ma l’IA ha comunque imparato a evitare i nemici e a ucciderli: secondo il paper relativo al caso, questo è accaduto perché morire avrebbe fermato la partita, impedendo alla macchina di continuare a soddisfare la sua curiosità.

Ancora, a ottobre di quest'anno, l’organizzazione OpenAI ha basato sulla curiosità una delle prime IA che è riuscita a combinare effettivamente qualcosa in Montezuma’s Revenge, senza bisogno di una dimostrazione da parte di un essere umano.

I ricercatori di Uber hanno però fatto un passo ulteriore: la loro IA Go-Explore ha una qualche forma di curiosità (l’esplorazione è anche in questo caso una ricompensa intrinseca), ma ha anche memoria del passato. Il metodo più semplice adottato per far ricordare alla IA i luoghi attraversati è commovente nella sua umanità: le schermate del gioco vengono compresse sino a diventare immagini a bassissima risoluzione (8x11 pixel), ricordi sfocati in cui emergono alcuni dettagli.

Gli sviluppi di questa tecnologia sono piuttosto impressionanti. OpenAi aveva ottenuto 17500 punti in Montezuma’s Revenge, mentre l’IA di Uber è arrivata fino a due milioni di punti. E in Pitfall! — in cui finora quasi nessuna IA aveva superato il punteggio di zero — Go-Explore ha ottenuto 21000 punti, superando i punteggi normalmente ottenuti dagli esseri umani.

La realtà non ha ricompense frequenti e ben posizionate, non ti premia per ogni buona azione e a volte costringe a fare lunghi percorsi prima di mostrarti i primi risultati. È simile a Montezuma’s Revenge e Pitfall!, e per questo è importante che una IA sappia destreggiarsi neilabirinti dei due classici del videogioco. Eppure, c’è anche qualcosa di sottilmente inquietante nell’idea di dare una qualche memoria a una intelligenza artificiale, o nell’idea che una IA non voglia morire perché questo le impedirebbe di scoprire cose nuove in futuro.

Fa pensare, inevitabilmente, al finale di Blade Runner di Ridley Scott — con i suoi replicanti che non vogliono essere terminati, perché vogliono ricordarsi cosa hanno visto e vogliono vedere ancora —, o degli androidi che animano il parco di divertimenti estremi della serie HBO Westworld, che proprio grazie ai ricordi incorporati nel proprio cervello sintetico guadagnano una coscienza di sé.

Ma, ehi, non allarmiamoci troppo presto.

Tagged:IAAImontezuma's revengepitfall!ricercatori uber intelligenza artificiale videogiochiintelligenze artificiali che giocano ai videogiochiMemoriacuriositàTechMotherboard