Come smascherare il linguaggio sessista con le reti neurali artificiali

"Chiedendo al database di risolvere l’equazione padre: dottore = madre: x, la risposta non è stata dottoressa ma infermiera."

di Laura De Grazia

3.10.16

Judith Butler. Immagine via Wikimedia Commons/Jrberlein

Chissà cosa ne penserebbe Judith Butler, nota esponente della queer theory, della possibilità di individuare attraverso le reti neurali artificiali (ANN) un linguaggio sessista. Di sicuro dovrebbe aggiungere alla sua lunga lista di pubblicazioni una piccola guida che aiuti gli umanisti ad addentrarsi nel mondo dell'intelligenza artificiale. Prima di sgomentarci davanti all'enorme quantità di informazione digitale intrisa di stereotipi di genere, ripercorriamo le tappe di una storia che ha portato alla scoperta di un sistema che permette di riscontrare un linguistic sexism radicato in moltissime testate giornalistiche.

Nel 2013 un team di ricercatori Google si è cimentato nel progetto di sviluppare una rete neurale artificiale capace di imparare sia le parole di una lingua sia il rispettivo significato. Per raggiungere questo obiettivo, il team ha fornito alla ANN un corpus di 3 milioni di parole estrapolate da Google News. Il risultato che ne è conseguito è stato rappresentato in uno spazio di 300 dimensioni in cui è possibile individuare le connessioni tra parole con lo stesso significato. Nell'operazione, nota come word embedding, si possono rappresentare delle affinità semantiche attraverso semplici equazioni. Ad esempio, interrogando la base di dati (fornita da Google News) con l'equazione uomo = re : donna = x, il risultato sarà x = regina.

Se vi state chiedendo perché il modello elaborato da Google, chiamato Word2vec, dovrebbe suscitare il vostro interesse, pensate a traduttori automatici quali Google Translate o BabelFish. Tutti ci siamo rivolti, con risultati spesso deludenti, al mondo della traduzione istantanea. Non dovremo attendere a lungo per tastare con mano i miglioramenti apportati al mondo della traduzione flash grazie all'utilizzo delle ANN. Il sistema usato nel campo della traduzione automatica (machine translation) si basa sulla comparazione di un corpus di parole di un determinato linguaggio con un altro. Se i vocaboli presentano proprietà statistiche comuni, allora il significato delle parole di lingue diverse è considerato equivalente. Per intenderci, le parole "gatto" e "cane" presentano un'affinità semantica in inglese e in spagnolo, somiglianza che la machine translation riproduce attraverso la rappresentazione di un'affinità statistica. Utilizzando le ANN, si potrà ottenere un risultato molto più simile al linguaggio naturale e sbarazzarci di un metodo traduttivo inefficiente.

Chiedendo al database di risolvere l'equazione padre: dottore = madre: x, la risposta non è stata dottoressa ma infermiera.

Tolga Bolukbasi della Boston University e altri ricercatori del gruppo Microsoft hanno aggiunto un tassello mancante a questa scoperta. Praticando il word embedding sui dati estratti da Google News, è possibile riscontrare un linguaggio intriso di stereotipi di genere, sfacciatamente volto a sottolineare la disparità della donna nei confronti dell'uomo. Chiedendo al database di risolvere l'equazione padre: dottore = madre: x, la risposta non è stata dottoressa ma infermiera. E ancora, con l'equazione uomo: programmatore informatico = donna: x, il risultato coincide con casalinga e non con programmatrice informatica.

Solo parole di giornalisti sessisti? Sarebbe rasserenante eliminare così il problema. Tuttavia, dobbiamo tenere conto di due fattori, uno di carattere pratico, l'altro di carattere teorico. Bolukbasi e co. ci ricordano che molti degli articoli che leggiamo su Google News sono scritti da giornalisti competenti, che sembrerebbe impossibile additare come sessisti. Per il secondo dato da segnalare, Butler arriva in nostro soccorso. Nelle sue analisi sulla costituzione delle identità e delle relazioni di genere, ritroviamo diversi saggi (in particolare, Excitable speech) dedicati al potere delle parole, o meglio, al potere formativo del linguaggio.

In breve, Butler ci dice che il linguaggio è lo strumento attraverso cui modelliamo noi stessi e il nostro modo di rapportarci alla realtà sociale. Ad esempio, se diventiamo oggetto di hate speech (insulti razziali, omo-lesbo fobici e discriminazioni di genere), allora tenderemo a costituirci nei termini dell'identità ingiuriosa che c'è stata attribuita. Applicando la teoria di Butler all'uso e alla ricezione di un linguaggio sessista (spesso e volentieri non percepibile in modo manifesto) su Google News, il semplice gesto di scorrere pigramente i titoli del giorno diventa un gesto in grado di condizionare il rapporto con la nostra identità e con il contesto a cui apparteniamo.

Stereotipi legati al rapporto tra donne e informatica. Immagine via

Richiamando i risultati ottenuti con il word embedding, se possiamo ritrovare accanto al termine "donna" il sostantivo "casalinga", allora è facile giungere alla conclusione che alla donna appartengano ruoli di cura. Spingendoci un po' più oltre, ma non così lontano dall'inferenza, si potrebbe aggiungere che se è prerogativa del genere femminile occuparsi della sfera domestica, allora è molto facile dedurre che la donna debba essere madre per sentirsi realizzata o che debba provare un desiderio naturale di esserlo. Il gender bias, che si annida nelle pieghe del nostro linguaggio, orienta, dunque, le nostre scelte, i nostri desideri, il nostro modo di agire.

Individuato un sistema con cui smascherare l'uso di espressioni che penalizzano in genere femminile, come intervenire per ridurre l'uso di un linguaggio sessista?

Bolukbasi e co. propongono un'idea che si presenta come una soluzione promettente. Combattere il gender bias, sedimentato nel linguaggio, sembra possibile grazie alla pratica che il team ha definito come hard de-biasing. In un primo momento, i ricercatori hanno individuato nello spazio di 300 dimensioni i collegamenti prodotti con i termini lei: lui. Il risultato, sottoposto ad Amazon Mechanical Turk, è stato a dir poco sconfortante. I turkers hanno riscontrato un'elevatissima quantità di relazioni asimmetriche, quali, ad esempio, ostetrica: dottore, bambinaia: fisico; borsa: ventiquattrore. Secondariamente, il team ha utilizzato i dati prodotti dalla ricerca per modificare le relazioni che s'instaurano con i termini lui: lei. Il risultato, questa volta, cambia notevolmente, producendo rapporti quali governante: cameriere, figlia: figlio, ragazza: ragazzo (non è cosa da poco considerando che nei precedenti risultati erano presenti relazioni quali femminile: virile, ergo donna incapace di badare a sé: maschio alfa che la protegge). Finalmente la bilancia che compara connotazioni/mestieri/qualifiche pertinenti al genere maschile o femminile si mantiene sul piacevole equilibrio del no gender bias.

potremmo pensare che il word embedding sia semplicemente il rifesso di pregiudizi, discriminazioni e marginalizzazioni, rivolti al genere femminile (e non solo)

Il metodo hard de-biasing potrebbe anche essere utilizzato come un'operazione hard de-racialing. Pensiamo, ad esempio, all'episodio per cui Google è stato additato come razzista, quando la piattaforma Foto, capace di catalogare in modo automatico immagini e video attraverso il riconoscimento di volti e luoghi, ha classificato una foto di una coppia di colore con l'etichetta "gorilla". Usando il metodo brevettato dal team di ricercatori, si potrebbe ridurre l'amplificazione di discriminazioni.

Come affermano Bolukbasi e co., potremmo pensare che il word embedding sia semplicemente il rifesso di pregiudizi, discriminazioni e marginalizzazioni, rivolti al genere femminile (e non solo), che si sono sedimentati nella società. Sarebbe, dunque, necessario sradicare il gender bias all'interno della società piuttosto che nell'operazione del word embedding. Oppure, e questa seconda opzione appare decisamente più proficua, potremmo usare il word embedding come un efficace strumento di lotta contro gli stereotipi di genere. La trasformazione del linguaggio dei nostri sistemi computazionali sarebbe, dunque, un importante passo verso il de-biasing della società e di conseguenza, una battaglia che vale la pena di combattere per estirpare un sessismo radicato non solo nel nostro linguaggio ma nelle nostre teste.

Tagged:scopertealgoritmiquestioni di genereTechMotherboard

FYI.

This story is over 5 years old.

​Come smascherare il linguaggio sessista con le reti neurali artificiali

Come smascherare il linguaggio sessista con le reti neurali artificiali