FYI.

This story is over 5 years old.

Stuff

Come è nato il test del vocabolario preferito dai grammar nazi italiani

Abbiamo chiesto a Simona Amenta, tra i progettisti del test del vocabolario, qual è lo scopo del test, cosa ne emerge e come se la cava l'italiano medio.

Probabilmente avrete già sentito parlare del test del vocabolario che ha fatto impazzire i grammar nazi e i feticisti dei dizionari di tutta Italia, con minuti e minuti persi a cercare di riconoscere le parole vere in una selva di parole inventate del tutto simili a quelle reali. Il test in questione, nato dalla collaborazione tra l’Università di Milano-Bicocca e quella di Gand sulla scia di analoghi esperimenti in altre lingue, è stato lanciato lo scorso novembre con l’hashtag #parolecheso e ha già riscosso un discreto successo.

Pubblicità

Quello che forse non sapete, però, è che si tratta del più grande esperimento di psicolinguistica mai realizzato—per numero di partecipanti, varietà, diffusione nei vari paesi e numero di parole testate. Ho chiamato Simona Amenta, tra i progettisti della versione italiana, per saperne di più sul test, sul suo scopo, sui dati raccolti sinora e su come se la cava l'italiano medio con la sua lingua madre.

VICE: Com'è nata l'idea di creare questo test che in quattro minuti valuta la tua conoscenza del vocabolario italiano?
Simona Amenta: L’idea è di Marc Brysbaert, professore della facoltà di Psicolinguistica dell’Università di Gand, in Belgio, considerato tra i pionieri dell’approccio big data nell’ambito della psicologia del linguaggio. Ecco, Brysbaert era "stanco di sentirsi chiedere continuamente" quante parole conoscesse. In realtà, ovviamente, l’obiettivo è creare un ampio database di risorse condivise sulla conoscenza del linguaggio.

Il test viene inizialmente sviluppato in olandese e diffuso in Belgio e Olanda, seguito poi dalla versione inglese, condivisa nel Regno Unito e negli Stati Uniti, e da quella spagnola. Al momento per la versione anglofona contiamo più di un milione di risultati, che lo rendono il più grande esperimento psicolinguistico mai realizzato al mondo.

Mancava, ovviamente, l’italiano. Nel 2016, insieme a Marco Marelli, ora ricercatore del Dipartimento di Psicologia all’Università Milano Bicocca, ho iniziato a collaborare con l’università di Gand nel gruppo del prof. Brysbaert per creare il test in italiano.

Pubblicità

Che valore può avere un test del genere nello sviluppo della scienza del linguaggio?
Il valore è enorme. Grazie al crowdsourcing è finalmente possibile raccogliere un grandissimo numero di risorse condivise che possono essere utilizzate negli ambiti più svariati della ricerca. Erano anni che si aspirava ad ampliare i Lexicon Projects, ma gli esperimenti tradizionali in laboratorio non permettevano di raccogliere un numero così vasto di dati. È vero che in laboratorio c’è un maggior controllo sperimentale, ma è altrettanto innegabile che i test così condotti, seppur offrano meno stimoli e distrazioni, si rivolgono a gruppi ben definiti di persone, solitamente studenti universitari con un livello di istruzione, età e spesso genere simili.

Il numero di risposte di un test in crowdsourcing, considerevolmente maggiore, sopperisce al rumore, che è ulteriormente filtrabile attraverso tecniche scientifiche ormai rodate in laboratorio. E il database risultante avrà un valore inestimabile: una risorsa ampia e articolata che sarà messa a disposizione di altri studi in campo clinico, educativo e scientifico.

L’elenco di parole italiane presenti nel test comprende 130.000 termini reali e 20.000 parole inventate. Come li avete selezionati?
L’italiano, rispetto al test inglese e olandese, coinvolge più termini. Il nostro approccio è stato data-driven: abbiamo, cioè, utilizzato dati provenienti dalla lingua parlata e realmente utilizzata, selezionati in modo semiautomatico. Abbiamo attinto da dizionari di frequenza online, sottotitoli di film e serie TV, siti web, dizionari specialistici, corpus terminologici, cercando di includere non solo voci comuni, ma anche termini tecnici, neologismi, arcaismi, anglicismi entrati nel linguaggio comune (come, ad esempio, “chattare" o “postare”). Inoltre, sono state incluse non solo le forme base delle parole, ma anche quelle flesse e declinate (ad esempio non solo “amare”, ma anche “amavo”, “amato”, “amaci”). Lo scopo, infatti, è proprio quello di far decidere ai parlanti cos’è percepita come “lingua italiana”.

Pubblicità

Per quanto riguarda le non-parole, invece, abbiamo utilizzato WUGGY, un programma creato dai ricercatori dell’Università di Gand in grado di generare pseudo-parole e non-parole in varie lingue. In pratica, attinge da una lista di termini creandone altri considerati plausibili per ortografia, fonetica e sillabica. Alcuni sono così simili a parole “vere” da trarre in inganno anche gli esperti.

Avete già raccolto dati che permettono di tracciare un profilo medio di chi esegue il test?
La versione italiana del test è stata lanciata lo scorso novembre, quindi non abbiamo ancora dati a sufficienza. Abbiamo però a disposizione stime interessanti per quanto riguarda l’inglese e l’olandese. Secondo i risultati del test, il parlante medio conosce tra il 40 e il 70 percento del lessico della sua lingua. Ci ha stupito constatare che l’età è una variabile incrementale, ovvero la percentuale di parole apprese in media continua ad aumentare con l’età.

Un dato che, invece, ci aspettavamo è quello riguardante l’istruzione: le persone con un grado di istruzione maggiore hanno in genere un vocabolario più ampio, sicuramente influenzato dalla lettura.

Il fatto che sia online e per lo più diffuso sui social ha influito sull’età media dei partecipanti?
In realtà il test in olandese e inglese è riuscito a comprendere una fascia media e variegata di popolazione, sia per quanto riguarda il genere. Inoltre, il fatto che il test sia ripetibile ci consente di valutare il repertorio linguistico in modo dinamico, offrendo dati interessanti riguardanti le zone geografiche e l’influenza del genere sulla conoscenza di determinati termini.

Parlare di lingua e conoscenza della lingua sui social network è un po’ come attraversare un campo minato. A un mese dal lancio sui social, avete ricevuto feedback sul test?
Abbiamo pubblicato un articolo su reddit che ha innescato discussioni davvero interessanti. Ovviamente c’era uno schieramento di utenti più bellicosi che hanno messo in discussione alcuni termini, ma anche questo ha aperto uno scenario non banale: cosa possiamo considerare lingua italiana e cosa no?

I feedback sono stati tanti, alcuni molto positivi. Gli utenti ci hanno segnalato errori, parole che WUGGY considerava inventate ma invece esistono davvero, magari in dialetto. Inoltre, abbiamo notato che molte persone tornano a fare il test, anche solo per migliorare il proprio punteggio, e questo ci consente di avere dati sempre nuovi e sempre più attendibili sull’uso effettivo della lingua e la sua evoluzione. Siamo molto soddisfatti e speriamo di raggiungere un numero di persone uguale, se non maggiore, alla versione anglofona.

Segui Eugenia su Twitter