La linguistica computazionale applicata a South Park

FYI.

This story is over 5 years old.

Tecnologia

La linguistica computazionale applicata a South Park

Cosa succede quando si analizza ogni singola battuta pronunciata in South Park? Questo.
Giulia Trincardi
Milan, IT

Forse non ve l'ho mai confessato, ma sono una grande fan di South Park. Il cartone animato nato nella seconda metà degli anni Novanta, dalle menti psichedeliche (in senso metaforico o anche no) di Trey Parker e Matt Stone, riesce a fabbricare praticamente ad ogni episodio una critica puntuale della società americana (e occidentale in generale) e dei suoi paradossi — e lo fa massacrando i suoi modelli e rovesciando allo stesso tempo stereotipi e regole del politicamente corretto.

Pubblicità

Da grande fan di South Park ho sempre pensato che questo cartone fosse un tema glorioso per una tesi accademica. I suoi contenuti hanno dato, sin dal principio, una forma alla serie che va al di là dell'intrattenimento, rendendola un prodotto di satira elaborata che sfiora il non-senso esistenziale.

Di recente, Kaylin Walker del Concordia College di Fargo, North Dakota, ha trasformato in pratica i miei sogni accademici, portando a termine un'operazione di text mining colossale su tutti i 267 gli episodi del cartone animato.

Il text mining è un insieme di tecniche linguistiche, statistiche e di machine learning che permette di analizzare meccanicamente un testo, per trarne conclusioni di vario tipo, a seconda dell'ambito e dello scopo dell'analisi. Si usa il text mining in campo economico, storico, sociale, governativo, psicologico, perché "contare le parole uguali" di un testo può rivelare molto su chi l'ha scritto o sul contesto in cui viene divulgato.

In un odi et amo perfetto, infatti, la parola più pronunciata da Cartman è "Kyle" e quella più pronunciata da Kyle è "Cartman".

A questo punto è giusto chiedersi: che cosa ha dedotto Walker dall'analisi di ogni parola pronunciata dagli abitanti di South Park, Colorado?

Utilizzando una serie di programmi di text mining quali R, RWeka e stringr, Walker ha prima prelevato tutte le battute dei personaggi dalle trascrizioni disponibili su GitHub, poi ha associato ogni battuta al personaggio che la pronuncia, dividendole per n-grammi (termine con cui in linguistica computazionale si indicano le sotto-sequenze o unità minime di una sequenza), e le ha catalogate in modo da "creare una lista delle espressioni più caratteristiche per ogni personaggio."

Pubblicità

Per farla breve, è partita da 70.000 parole totali per arrivare a decretare quale personaggio parli di più, quale in modo più costante e quale in modo più discontinuo, quale sia la parola più pronunciata da ognuno dei personaggi e — data la natura del testo analizzato — quale personaggio imprechi più degli altri (indovinate chi!). In un secondo momento, ha aggiunto anche i dati relative alle singole stagioni, analizzando come sono mutate le parole (e le profanità) di anno in anno.

Dei quasi 4.000 personaggi che compaiono (e parlano) nel corso delle 19 stagioni di South Park, Walker ha analizzato singolarmente i 29 principali, confinando i restanti in una casella comune, data la minor rilevanza statistica del singolo. Quindi, almeno per ora, un'analisi dettagliata dei personaggi "basati su persone reali, ma del tutto fittizi" come Tom Cruise, Saddam Hussein, e i Super Migliori Amici non è disponibile. Ma l'esplorazione del testo non è per questo meno interessante; Cartman risulta essere, prevedibilmente, il personaggio con più battute in assoluto, mentre Kenny, tra i personaggi principali, è quello che parla meno. Butters—sempre più spesso impiegato come spalla ingenua e maldestra di Cartman—e il padre di Stan, Randy, hanno guadagnato spazio negli anni, a spese, però, dello spazio di Stan stesso e Kyle.

Immagine via

Nel grafico subito sotto, Walker inquadra i personaggi che imprecano più degli altri e Kenny, questa volta, vince a mani basse, con un tasso specifico di 54.8 imprecazioni ogni 1000 parole (quasi il triplo di Cartman, per intenderci).

Pubblicità

Immagine via

L'articolo di Walker prosegue mostrando come siano variate le parole volgari più pronunciate, con "ass" surclassato da "fuck" e "shit" che conserva il picco più alto in assoluto rispetto alle altre espressioni, nonostante sia stato nel tempo superato da "hell"

Per scoprire invece quali siano i termini caratteristici per ogni personaggio, Walker ha prima scremato le parole usate indistintamente da tutti (come "school," "I," "you" e via dicendo), poi ha utilizzato una funzione di verosimiglianza per misurare l'unicità di ogni n-gramma. "La funzione di verosimiglianza" spiega nell'articolo, "mette a confronto l'incidenza di una parola in un corpo specifico (quello del discorso di un personaggio) con la sua incidenza in un altro corpo (quello dei testi rimanenti) per determinare se compare più o meno di quanto previsto." Potete interpretare i numeri duri e puri, o guardare il grafico qui sotto e stupirvi.

Immagine via

In un odi et amo perfetto, infatti, la parola più pronunciata da Cartman è "Kyle" e quella più pronunciata da Kyle è "Cartman". Inoltre, è interessante vedere come il maggior spazio dedicato al personaggio di Randy (il padre di Stan), sia dovuto soprattutto all'alter-ego sviluppato da Randy nella stagione scorsa, la cantante Lorde—il cui nome è la terza parola più pronunciata dal geologo.

Di tutti i campi in cui si può applicare la statistica e la linguistica computazionale, i cartoni animati sono sicuramente un ambito originale; per quanto l'analisi di Kaylin Walker possa sembrare un semplice esercizio di stile — usare il text mining per esplorare il cartone più sfacciato della storia della televisione — , non è, in realtà, diversa dall'analisi che si può fare su un testo classico, su un romanzo ottocentesco o su un articolo di economia, proprio perché South Park è entrato da tempo a pieno diritto nella cultura pop internazionale, prendendo di mira politica, religione, scienza, arte, spettacolo, tecnologia e infiniti altri aspetti della nostra società. L'unica differenza, forse, sta nella quantità di imprecazioni che usa per farlo.