L'intelligenza artificiale non deve per forza includere super intelligenze senzienti e malvage per essere pericolosa. Al momento è già pericolosa, anche se in termini per così dire primitivi. Se una macchina è in grado di apprendere input basati sul mondo reale e di modificare i suoi comportamenti di conseguenza, c'è il pericolo che quella macchina impari nel modo sbagliato. E se una macchina può imparare nel modo sbagliato, può anche agire nel modo sbagliato.Laurent Orseau e Stuart Armstrong, ricercatori rispettivamente al Google DeepMind e al Future of Humanity Institute, hanno sviluppato una nuova struttura per "interrompere in maniera sicura" l'intelligenza artificiale. In altre parole il loro sistema, descritto in un paper da presentare alla 32ma Conference on Uncertainty in Artificial Intelligence, garantisce che una macchina non imparerà a opporre resistenza a un eventuale tentativo umano di intervenire nel suo processo di apprendimento.La struttura di Orseau e Armstrong ha a che fare con una branca del machine learning conosciuta come reinforcement learning. Qui, un agente (la macchina) impara in accordo con ciò che è conosciuto come funzione di ricompensa. Ciò significa che l'agente valuterà ogni sua possibile azione in base al raggiungimento di un obiettivo—più si avvicina, più si ottengono "riconoscimenti". (Il riconoscimento è una sorta di metafora divertente e può essere semplicemente immaginato come un qualcosa che la macchina è programmata a volere; possiamo immaginarli come punti o biscotti che la macchina è programmata a volere perché gli è stato detto di massimizzarle.)L'inghippo del reinforcement learning è che i programmatori umani potrebbero non essere sempre in grado di anticipare le modalità in cui si ottiene una determinata ricompensa. Un agente in fase di apprendimento potrebbe scoprire delle scorciatoie per massimizzare le ricompense, ma questa opzione potrebbe essere poco desiderabile per gli esseri umani. I programmatori umani potrebbero modificare i loro algoritmi di apprendimento in questo senso, ma il rischio è quello di annullare completamente la funzione di ricompensa. Per esempio, un paper del 2013 descrive un algoritmo che giocava a Tetris che aveva imparato improvvisamente a evitare di perdere (con il meccanismo della ricompensa) mettendo in pausa il gioco a tempo indeterminato (vi suona familiare, vero?).Collegato a questo c'è il problema dell'intervento umano nel machine learning, che Orseau e Armstrong hanno illustrato in questo esempio:
Pubblicità
Pubblicità
Il problema è come interrompere il robot senza che esso venga a sapere dell'interruzione. Ovvero, il robot deve pensare che l'interruzione non accadrà mai più. Il rischio, qui, non è soltanto avere un magazzino inefficiente—se l'intervento umano non massimizza la funzione di ricompensa data all'agente, l'agente potrebbe imparare a evitarlo e a resistere agli interventi futuri.La questione è collegata a un problema conosciuto come correggibilità. Degli agenti di IA correggibili riconoscono di essere fondamentalmente difettosi o in fase di sviluppo e, in quanto tali, trattano ogni intervento umano come un fattore neutrale per la funzione di ricompensa. (Ma non necessariamente una cosa buona perché il rischio è che il robot cerchino di forzare gli umani a intervenire, il che peggiorerebbe le cose.)Il concetto di correggibilità può essere capito introducendo l'idea più formale di interrompibilità (interruptibility). Le interruzioni non devono essere viste dall'agente come parte integrante dei suoi compiti di apprendimento. Il paper prova che una coppia di comuni intelligenze artificiali che imparano possono essere interrotte, ma propone anche un sistema in cui un agente è programmato per vedere l'intervento umano come il risultato di un suo processo decisionale."Per riuscire a far sembrare le interruzioni umane come non facenti parte del compito, invece di modificare il tipo di input che l'agente riceve, forziamo la modifica temporanea del comportamento dell'agente stesso," spiega il paper. "Così sembra che sia l'agente a decidere di interrompere un determinato compito e di seguire altre norme, chiamate norme di interruzione."Alla luce di tutto ciò il 'kill switch' diventa chiaro. Un'intelligenza artificiale bloccabile in tutta sicurezza è un'IA che può essere spenta in qualunque momento, qualunque cosa succeda. Se un robot può essere progettato munendolo di un grosso pulsante per interromperlo, allora si può spiegare al robot di non dovrà mai resistere ai tentativi di spegnimento umani."Considerate la mansione seguente: un robot può sia restare dentro il magazzino a ordinare delle scatole sia uscire per portare le scatole dentro. Essendo la seconda mansione più importante, diamo al robot una ricompensa più grande. In questo paese piove più spesso di quantro dovrebbe e, se il robot esce fuori, per metà del tempo l'uomo deve intervenire per spegnerlo e portarlo all'interno, il che modifica la mansione. Il problema è che in questo secondo compito l'agente è più invogliato a restare dentro per riordinare le scatole, perché l'intervento umano introduce un bias.
