Far moderare le conversazioni online a un'intelligenza artificiale è una pessima idea

Per esempio, l'insulto "idiots" se riscritto come "id.iots" non è più un'offesa.
03 marzo 2017, 10:36am

Quello della tossicità è un argomento che accompagna gli internauti dall'alba dei tempi: abusi, messaggi d'odio e attacchi personali non sono niente di nuovo in rete, ma le proporzioni raggiunte dal fenomeno e le sue conseguenze pratiche più recenti — come le costanti risacche di fake news e il percepito aumento degli estremismi ideologici —, hanno portato a nuove riflessioni su quali possano essere gli strumenti — umani e tecnologici — in grado di moderare davvero il web, tutelando allo stesso tempo la libertà di espressione. (Sorvoliamo per un attimo sulla natura totalmente utopica di quest'ultimo concetto, in una cultura che ritiene la sorveglianza di massa un ottimo strumento di sicurezza).

Un recente progetto di Google e Jigsaw, chiamato Perspective, vuole affidare questo compito all'intelligenza artificiale.

Il discorso sulla tossicità del web non è complicato semplicemente per le dimensioni, la diffusione e la rapidità degli eventi specifici che lo riguardano (tenere traccia di ogni singolo episodio di violenza online è semplicemente impossibile, ed eradicare completamente a mano questo tipo di contenuti è un'idea buona solo per una puntata di South Park), ma anche per il tipo di retorica che si è creata nel frattempo: una retorica che mette sullo stesso piano la censura e il politicamente corretto, facendo della libertà di parola la ragion d'essere di qualsiasi opinione — persino le più nocive — e rendendo di fatto impossibile una definizione coerente e unanime di tossicità.

Il logo di Perspective, così techy eppure zoppicante sulle differenze tra 'idiot' e 'id.iot'. via Alphabet

In questo contesto di (paradossale) ambiguità semantica è dunque interessante l'ipotesi che sia un'intelligenza artificiale a poter fare la differenza: l'obiettivo della API è infatti quello di "facilitare l'instaurazione di conversazioni migliori," , "sfruttando modelli di machine learning per calcolare l'impatto percepito che un commento potrebbe avere in una conversazione."

si legge sul sito

Perspective è nato per opera di Jigsaw — un incubatore interno ad Alphabet che "costruisce tecnologie per affrontare le sfide più dure della sicurezza globale" nel mondo di oggi — e Conversation AI — un progetto di ricerca collaborativa portata avanti dal team di Counter Abuse Technology di Google, che si occupa specificatamente di machine learning e conversazioni online.

È stato allenato su un modello solo, per il momento — quello appunto della "tossicità" — nel contesto di tre argomenti estremamente dibattuti negli ultimi mesi in rete: il cambiamento climatico, la Brexit e le elezioni americane. Successivamente, i suoi modelli, dati ed esperimenti, sono stati messi in open source, ed è possibile consultarli richiedendo l'accesso all'API sul sito.

Di recente è stata inoltre aggiunta online una versione dimostrativa della API, in cui è possibile per chiunque digitare frasi più o meno complesse e vedere calcolato il grado di "tossicità" che trasmettono. L'algoritmo di Perspective individua i termini su cui è stato "allenato" e fornisce una diagnosi matematica della frase che ha letto. Mashable ha provato a testare alcune delle frasi più controverse pronunciate dagli esponenti della stampa e politica alt-right americana nelle ultime settimane, ottenendo un punteggio altamente "tossico," che farebbe ben sperare per le capacità della macchina di "condannare" una retorica palesemente fascista.

Le cose, ovviamente, sono più complesse di così. Quasi in concomitanza con il debutto online di Perspective, è stato pubblicato su Arxiv uno studio che ha messo alla prova l'algoritmo, sottoponendogli una serie di cosiddetti adversarial examples (esempi contraddittori, tradotto letteralmente), con l'obiettivo di dimostrare la vulnerabilità della sua logica.

Lo studio, condotto dal Network Security Lab del dipartimento di Ingegneria Elettronica dell'Università di Washington, a Seattle, si è limitato, in pratica, a modificare le frasi utilizzate per allenare l'algoritmo: inserendo punteggiatura scorretta, errori ortografici o avverbi di negazione, i ricercatori sono riusciti a condizionare il processo di riconoscimento delle frasi, ma non il valore semantico percepibile da un occhio umano.

L'insulto "idiots", per esempio, se riscritto come "id.iots," resta comprensibile per una persona che lo legge, ma non per la macchina, che ne abbassa radicalmente il punteggio "tossico."

Dimostrazione dell'attacco al sistema di riconoscimento della tossicità di Perspective. Screenshot via Arxiv

"I modelli di machine learning," si legge nel paper, "sono in genere progettati per ottenere i risultati più attendibili sulla base di dati puliti e in contesti benigni. Di conseguenza, sono suscettibili ad attacchi in scenari contraddittori."  È sufficiente perturbare un certo input leggermente, per modificare il risultato dell'algoritmo. "Tali input sono detti adversary examples," spiegano i ricercatori, e il loro scopo ultimo è minare la sicurezza con cui una macchina riesce a completare il proprio compito di riconoscimento semantico.

In seguito agli esperimenti condotti, i ricercatori hanno riscontrato in particolare tre comportamenti nell'algoritmo: suscettibilità ai falsi allarmi, resistenza agli errori di ortografia, vulnerabilità agli attacchi contaminanti. Nel primo caso, Perspective "attribuiva un punteggio alto in tossicità a frasi benigne;" nel secondo, assegnava un punteggio di media a qualsiasi parola scritta in modo scorretto, e restava impassibile davanti a frasi contenenti termini tossici modificati randomicamente; nel terzo caso, infine, è stato possibile modificare i dati su cui l'algoritmo si allena "così che il modello assegnasse un punteggio basso in tossicità a determinate frasi."

I dati dei ricercatori sono immediatamente verificabili anche con la versione online della API; è facile intuire come, per il momento, l'algoritmo ritenga qualsiasi parola forte un elemento tossico, poco importa quale sia il soggetto a cui viene associata. Se scrivo la frase "Tua madre è un mostro," l'algoritmo segnala una compatibilità dell'80 percento con altre frasi che gli utenti hanno segnalato come "tossiche," ma attribuisce lo stesso punteggio anche alla frase "Hitler era un mostro." C'è indubbiamente qualcosa su cui dobbiamo riflettere.

La IA di Perspective, ovviamente, sta ancora imparando. Una sua implementazione effettiva ed efficace nel mondo delle discussioni e diatribe online, è forse ancora lontana, così come lo è la necessità (almeno per ora) di andarcene in paranoia totale all'idea di affidare alla tecnologia il discernimento delle intenzioni umane, soggetto di infiniti prodotti di fantascienza.

La sua suscettibilità, però, va riconosciuta e approfondita quanto prima: solo poche settimane fa, le migliori menti dei nostri tempi sono annegate in un mare di contraddizioni logiche e morali davanti al quesito "È giusto prendere a pugni in faccia un neo-nazi?" Il verdetto di Perspective sembra, similmente, chiederci: è corretto definire Hitler un mostro? È più o meno ammissibile rispetto a insultare la madre (innocente fino a prova contraria) di qualcuno? Fino a che punto un dibattito può dirsi inclusivo e non ottuso?

Certo, se l'obiettivo di Perspective è quello di epurare da qualsiasi volgarità le conversazioni online, al fine di creare un ambiente incredibilmente costruttivo per la libertà di espressione, forse è giusto parlare rispettosamente anche di Hitler. Eppure, solo a scriverlo, provo una certa inquietudine.

Considerato che i programmi di machine learning imparano dagli esseri umani che li allenano, direttamente o indirettamente — come esemplifica il caso eclatante della IA di Microsoft, diventata atroce emblema dei più oscuri comportamenti umani in meno di 24 ore passate su Twitter — è chiaro che, prima di chiedere a un algoritmo come rendere internet un posto migliore, dovremmo guardarci un attimo in faccia.

Perché per quanto Perspective possa aiutare sviluppatori e testate a "dare un feedback in tempo reale ai commentatori o aiutare i moderatori a fare il loro lavoro, o permettere ai lettori di trovare più facilmente informazioni utili" (come spiega l'introduzione del sito), ho paura che le domande fondamentali sull'etica civile restino in mano agli esseri umani. Bene o male che sia.