FYI.

This story is over 5 years old.

Tecnologia

L'algoritmo che riconosce i tweet che scriviamo da sbronzi

In base a cosa capiamo che un certo messaggio è stato scritto da una persona ubriaca? Questo algoritmo lo sa.
Giulia Trincardi
Milan, IT

In base a cosa capiamo che un certo messaggio è stato composto da una persona in preda ai fumi dell'alcol? Dall'orario di invio? Dalle lettere dimenticate per strada? Dal contenuto imbarazzante? Magari è una combinazione di più fattori, tra cui le inequivocabili parole "ho bevuto."

È lecito allora dire che i messaggi da ubriachi sono tutti uguali? Secondo i ricercatori della Rochester University, New York, sì. O, almeno, sono abbastanza simili da permettere a un algoritmo di imparare a riconoscerli.

Pubblicità

Il rapporto tra tecnologia e alcolici è piuttosto dinamico. Dai robot che bevono in compagnia, alle app pensate per prevenire l'invio di messaggi avventati—di cui sicuramente finiremmo per pentirci il giorno dopo—l'umanità sembra rivolgersi alla tecnologia un po' come a quel genere di amico che non fa domande e che sa cosa è meglio per noi. Ma, oltre a farci da spalla nei momenti più frivoli e ridicoli legati al consumo di alcol, la tecnologia potrebbe raccontarci anche qualcosa in più sulle nostre abitudini, con un'accuratezza inquietante.

Nabil Hossain e colleghi hanno costruito un algoritmo in grado di determinare se un tweet sia stato inviato da una persona impegnata a bere e se questa persona stia bevendo a casa propria o in un locale.

Combinando infatti tecniche di Data Mining e Machine Learning e sfruttando la geolocalizzazione dei tweet, i ricercatori sono riusciti a costruire una vera e propria mappa reticolata del consumo di alcool che le persone fanno a New York e a Monroe County, località di periferia che include la cittadina di Rochester. L'obiettivo era capire che tipo di corrispondenza ci potesse essere tra il numero di tweet "ubriachi" e il posto da cui erano stati inviati, se si trattasse di un posto affollato o meno, una casa privata o un locale, e in che modo le abitudini alcoliche delle persone mutassero tra la metropoli e la campagna.

Per insegnare all'algoritmo a riconoscere i tweet giusti, i ricercatori hanno prima selezionato alcune parole chiave che facessero esplicito riferimento al consumo di alcool (Festa, bere, birra, etc). "Giuseppe è talmente sbronzo che si è messo a cantare Britney Spears in piedi sul tavolo" potrebbe essere un tweet buono per l'algoritmo, per esempio, mentre "Questa festa è una noia mortale, nessuno beve" potrebbe essere più difficile da interpretare. Ecco perché il passo successivo è stato ingaggiare alcune persone sulla piattaforma di servizi in crowdsourcing Mechanical Turk di Amazon perché confermassero se il tweet in questione parlasse effettivamente di alcolici e se lo facesse in relazione all'autore stesso del tweet.

Pubblicità

In altre parole, per insegnare all'algoritmo come riconoscere i tweet davvero ubriachi, gli hanno fornito un modello base approvato da cervelli umani.

Per stabilire se i tweet fossero inviati da una casa privata o da un altro luogo, i ricercatori non hanno semplicemente controllato le geolocalizzazioni dei tweet (per cui quella più frequente è probabilmente casa), ma hanno anche isolato i tweet contenenti una serie di parole chiave relative alla dimensione domestica (per esempio: TV, vasca da bagno, divano, letto), li hanno sottoposti di nuovo all'opinione delle persone su Mechanical Turk e li hanno somministrati alla macchina solo se approvati pienamente, incrociandone poi i dati con tutta un'altra serie di fattori, come la geolocalizzazione dell'ultimo post della giornata o la posizione più gettonata.

Con questo genere di lavoro di fino, i ricercatori hanno modellato i parametri dell'algoritmo al punto da renderlo capace "non solo di distinguere le persone che parlano di una certa attività [in generale] da quelle che parlano del condurre personalmente quella certa attività, ma anche di determinare se le persone stanno compiendo una certa azione in quel momento o se [si tratta di un riferimento a un momento] passato/futuro."

Il prossimo passo, dopo che l'algoritmo ha imparato a riconoscere i tweet che le persone formulano mentre bevono, sarà utilizzare questi dati per capire qualcosa in più sulle nostre abitudini alcoliche, su chi è più o meno propenso a twittare da sbronzo e da dove, su se e come la dimensione sociale/virtuale abbia cambiato il nostro modo di consumare alcolici, su come possa rivelare situazioni pericolose che sono rimangono magari invisibili in altri contesti.

Ovviamente, gli utenti di Twitter non sono un campione veramente rappresentativo della popolazione generale (neanche nella tecnologica New York); come sottolineano i ricercatori stessi nelle conclusioni dello studio, infatti, Twitter ha un bacino di utenti tendenzialmente giovane, mentre il consumo di alcool è un'abitudine diffusa tra persone appartenenti a svariate fasce di età. Ma, continuano, "le imprecisioni sono un problema comune nei metodi di campionamento;" con le dovute precauzioni, i dati raccolti possono comunque fornire informazioni preziose per la salute di una comunità.

Se vi è venuta un po' di ansia a pensare ai vostri tweet da sbronzi, tranquilli. Non siete soli.