Come aprire la scatola nera dell’algoritmo di Facebook
Immagine: Shutterstock. Composizione: Giulia Trincardi.

Come aprire la scatola nera dell’algoritmo di Facebook

Facebook tracking exposed è il progetto che analizza come si informano gli utenti su Facebook.
16.2.18

Come vi sareste sentiti se, dieci anni fa, un edicolante avesse deciso al posto vostro quale giornale dovevate leggere? Magari durante la campagna elettorale? Questo esempio rappresenta perfettamente il ruolo che l’algoritmo di Facebook gioca nel campo dell’informazione, cioè fare da collegamento tra l’utente e la miriade di fonti che segue, dando la possibilità a chi posta contenuti — un amico, un evento, o un giornale — di diventare visibile sulle varie bacheche.

Pubblicità

Questa azione di filtraggio dei social network, chiamata dal 2011 ‘filter bubble’ e successivamente ridefinita, contestualizzata ed analizzata, tende a dare all’utente quello che l’utente ha dimostrato di apprezzare. Questa diminuzione della varietà — che di per sé potrebbe non essere un problema, visto che ognuno di noi è piuttosto selettivo — implicitamente, contrasta con concetti propri della fase elettorale come la par-condicio, il confronto tra idee in competizione e il contraddittorio.

LEGGI DI PIÙ:
Come Internet ci si sta rivoltando contro
Quei termini di utilizzo che non leggiamo mai sono le nostre nuove leggi

Per svolgere un'analisi più dettagliata di questi aspetti, ci siamo dotati del software facebook.tracking.exposed che permette di raccogliere e ordinare la miriade di dati prodotti da Facebook ed è disponibile per tutti sotto forma di estensione per i browser Chrome e Firefox e abbiamo creato il sito elezioni.tracking.exposed per riportare i risultati.

Davanti ad un sistema in completo mutamento, che utilizza variabili e logiche a noi sconosciute, abbiamo per prima cosa ridotto le variabili. Non abbiamo comparato le esperienze informative di utenti reali, ma di 6 profili sotto il nostro controllo che seguono le stesse 30 fonti tra giornali, partiti e politici. I profili hanno subito una precisa polarizzazione politica simile a quella che potrebbe presentare un utente reale — a destra, centro destra, centro sinistra, m5s, sinistra e neutrale.

I contenuti raccolti da queste 6 bacheche sono stati poi integrati con dati sulla produzione delle 30 fonti e dati di natura semantica. La collezione delle principali keyword infatti ci permette di affiancare ad un’analisi quantitativa una qualitativa.

Il comportamento dell’algoritmo sembra avere un impatto consistente su quella che potremmo definire la dieta informativa dell’utente. Oltre a filtrare una parte considerevole della produzione delle fonti, tende a riproporre all’utente sempre gli stessi post. Nonostante la polarizzazione che abbiamo ricreato miri a rappresentare varie sfaccettature del panorama politico, il bacino di informazioni da cui l’algoritmo trae i post resta comunque molto limitato, influendo quindi anche a livello qualitativo su cosa viene offerto all’utente.

Pubblicità

Questo genere di analisi può essere applicata a qualsiasi evento. Nei grafici che seguono, ad esempio, si può trovare un piccolo assaggio a proposito della distribuzione dei feeds successivi al deragliamento del treno a Pioltello del 25/26 gennaio scorsi. Nello specifico, i grafici si soffermano, molto superficialmente, sull’impatto di due fattori molto importanti nella caratterizzazione della dieta informativa dell’utente, la ripetizione degli stessi post, già accennata prima, e la velocità con cui un feed viene impresso, ossia la “vita” di un post.

Come si può notare, la tendenza a riproporre gli stessi contenuti assume grande rilevanza nel definire la qualità e varietà dell’informazione offerta all’utente. Specialmente per quanto riguarda i grandi media, il fenomeno è distribuito omogeneamente, portando a una caratterizzazione delle varie timeline ancora più marcata. Questo comporta una sfida ancora più dura per le fonti più piccole. Non soltanto un primo filtraggio ne riduce la visibilità sulle bacheche, ma la crescita dei grossi concorrenti, dovuta alle ripetizioni, ne oscura sempre di più la presenza.

Il secondo fattore è legato, invece, alla durata della vita di un post, ovvero, il tempo passato tra la creazione dell’informazione da parte della fonte e la sua apparizione sulla bacheca dell’utente. Questa risulta una prova fondamentale per tratteggiare le tendenze dell’algoritmo. Parlando soprattutto di grandi media, una vita mediamente più breve comporta una forte e immediata visibilità rendendo le piccole fonti ancora meno visibili.

Grazie ad un’analisi semantica dei link condivisi dalle fonti, siamo anche stati in grado di rintracciare le maggiori keywords all’interno di ogni link condiviso in modo da correlare i trend algoritmici con il significato semantico dei post.

L’obiettivo del nostro progetto è fornire, attraverso i dati, un modello interpretativo del comportamento dell’algoritmo il più aperto e trasparente possibile. È proprio per questo che l’intero dataset è a disposizione di chiunque voglia di utilizzarlo e contribuire con nuove idee e nuovi approcci alla ricerca.

Federico Sarchi è un datajournalist che collabora a ‘Facebook Tracking Exposed’. La sua collaborazione al progetto è iniziata con raccolta dei dati per un documento di Webfoundation sull'impatto dell'algoritmo Facebook sul dibattito pubblico argentino.

Segui Federico su Twitter: @federicosarchi

Seguici su Facebook e Twitter