L'assurdo piano per creare un archivio parallelo di Instagram

FYI.

This story is over 5 years old.

L'assurdo piano per creare un archivio parallelo di Instagram

Instagram sta cercando di far chiudere il progetto, che ha già raccolto circa 600 TB di foto.

13.11.17

Non è certo la prima volta che gli utenti di Reddit vedono nascere un progetto collaborativo che sembra del tutto insensato. Giusto quest’anno, con il Place project, migliaia di utenti si sono uniti per disegnare su una gigantesca tela digitale. Intorno allo stesso periodo, però, i membri di r/DataHoarder, una comunità che si auto descrive come “bibliotecari digitali,” stavano piantando i semi di qualcosa di molto più ambizioso — almeno in linea di principio.

L’idea era di creare un archivio distribuito di tutto Instagram. La cosa avrebbe richiesto prelevare ogni foto proveniente da qualsiasi account pubblico (e svariati privati) e conservarle su hard disk separati e spazio affittato su qualche cloud. La dimensione totale di questo archivio quando sarà finito non è certa, ma decine di milioni di foto vengono caricate ogni giorno sulla piattaforma, che equivalgono probabilmente a petabyte di dati. Dopo otto mesi di lavoro, il gruppo ha archiviato circa 600 terabyte di post di Instagram — niente di sconvolgente, anzi, una goccia nel mare di tutte le immagini pubblicate su Instagram.

Allora perché prendersi una sbatta del genere per accumulare le foto di persone a caso? Stando ai creatori dell’archivio, la risposta è semplicemente ‘perché sono lì.’ Ma il progetto potrebbe anche un giorno avere un valore importante per gli storici, e magari trovare uso pratico nel presente come metodo per prevenire il furto d’identità online — dando per scontato che Instagram non riesca a far chiudere tutto prima.

L’idea di creare un archivio distribuito di Instagram è apparsa per la prima su r/DataHoarder il 5 gennaio, per opera di uno dei moderatori del subreddit, -Archivist. Il suo vero nome è John (ma non ha voluto dirci il cognome), va verso la trentina d’anni e, come mi ha spiegato per email, quando non archivia Instagram, passa il tempo ad “archiviare qualcos’altro.” Per quanto John abbia lavorato su progetti di archivio più formali sia nella vita reale che online con l’Archive Team, la maggior parte del suo tempo come bibliotecario digitale in questi giorni è dedicato a progetti di piacere che pubblica su r/DataHoarder.

"Insomma, ora ho 300 TB di foto di altre persone, ma che ci faccio?"

“A spingermi a creare un archivio di Instagram è stato il fatto che nessun altro lo stesse facendo,” mi ha detto John per email. “Non avevo alcuna ragione particolare in testa o idea quando ho cominciato a mettere da parte i dati.”

Per usare le parole di John, è spesso additato come “il tizio con le idee d’archivio controverse” (è anche una delle menti dietro il progetto che vuole creare un enorme archivio di cam girl), ma, a questo giro, l’idea di raccogliere in separata sede tutto Instagram ha preso subito piede sul subreddit.

Per la maggior parte delle persone, l’idea di usare programmi per prelevare e conservare il numero più alto possibile di post di Instagram può sembrare una cosa incredibilmente frivola. Ma gli accumulatori di dati non sono la maggior parte delle persone. Si tratta di una comunità dove la credibilità è calcolata dalla capacità di raccolta dati segnata sul tuo profilo, e persino il frammento più inutile di Internet è considerato un pezzo di storia che vale la pena preservare. Per cui John non ha avuto alcun problema a trovare una comunità di persone ben disposte ad aiutarlo in questa impresa folle — la domanda a quel punto era solo: come.

Quando John ha espresso per la prima volta la sua idea su r/DataHoarder il 5 gennaio scorso, aveva già prelevato i post di circa 3.400 account, per 2.2 milioni di file in tutto — circa 633 GB di informazioni. Impressionante, sicuro, ma ancora solo una goccia nel mare di selfie di Instagram. In questa fase, John stava usando un programma open source chiamato RipMe, per estrarre immagini e video dagli account pubblici di Instagram, il problema, in realtà, era che trovare questo tipo di account era più difficile del previsto.

Tecnologia

Un redditor ha archiviato quasi 2 petabyte di porno per testare il cloud 'illimitato' di Amazon

Samantha Cole

25.8.17

“Puoi andare su un profilo e aprire la lista di gente che segue quel profilo, ma si caricano solo 20 account circa alla volta,” ha detto John. Per cui ho passato ore a scrollare queste liste per raccogliere manualmente gli username. All’inizio avevo ovviato al problema incollando un pezzo di cartoncino sul tasto “pagina seguente” e andandomene dal computer.”

Una delle clausole del progetto è che non si poteva fare affidamento sulle API di Instagram per raccogliere le informazioni degli account perché sarebbe stato in netta violazione dei termini di servizio della piattaforma. A un certo punto, la comunità ha scoperto una soluzione che prevede una dozzina di righe di codice che gli permette di collezionare le foto di circa 2 milioni di account ogni 24 ore e mettere questi nomi in una lista che può essere usata da un altro programma per prelevare le immagini vere e proprie dagli account.

La stragrande maggioranza dei post di Instagram nell’archivio è stata raccolta da account pubblici a cui è possibile accedere per chiunque. Ma John e compagnia sono riusciti a trafugare foto anche da account privati. Prima John ha creato un bot di Instagram programmato per cercare e seguire gli account privati. La speranza era che questi account accettassero la richiesta di follow del bot, così da esporgli i contenuti dei loro account privati. Stando a John, questa tattica ha una percentuale di successo del 70 percento circa. Ad ogni modo, Instagram permette di seguire solo 7.500 persone alla volta e John ha detto che “si stava stufando del progresso lento, così ha abbandonato l’idea.”

Per un po’, l’intero progetto è stato portato avanti solo da John. Per dirlo con le sue parole, una volta che ha capito come ottenere milioni di username anziché solo qualche migliaio a botta, tutto ciò che ha fatto è stato “dare al [programma di scraping] milioni di URL e aspettare.” L’aspetto distribuito del progetto è stato introdotto solo nel momento in cui un altro membro della comunità di accumulatori ha scritto un pezzo di codice che avrebbe permesso a chiunque volesse partecipare di confrontare URL con la lista principale e assicurarsi che lo stesso account non fosse scaricato due volte.

Stando a John, ci sono circa 30 o 40 persone coinvolte nel progetto di archivio di Instagram, e in totale hanno raccolto circa 580 TB di post di Instagram. John da solo è responsabile di circa 300 TB personalmente. Ha detto che entrare a far parte del progetto non richiede hardware particolari, solo un sacco di spazio d’archivio.

“Può partecipare chiunque, senza conoscenze particolari,” ha detto John, aggiungendo che l’ostacolo più significativo è trovare una casa per tutti questi dati e capire cosa farci. Anche se John ha detto di aver somministrato alcune delle immagini a Internet Archive, la maggior parte sono conservate localmente sugli hard disk di chi contribuisce al processo.

"Siamo ancora parecchio disorganizzati,” ha detto John. “Ho sentito di persone con archivi da 50 GB fino a 50 TB che mi chiedono cosa farne, a cui rispondo, ‘Tiello da parte, ti rispondo il prima possibile…' per cui ora ho 300 TB di foto di altre persone, ma che ci faccio?”

Questa domanda ha irritato almeno uno dei membri di r/DataHoarder, a cui non piaceva per niente l’idea che una manciata di individui avesse accesso a una parte così consistente di contenuti di Instagram. Questo utente ha anche denunciato l’impresa al social network, ma, stando a John, gli archivisti non starebbero violando i termini di servizio dell’azienda, per cui non si aspetta di ricevere lettere di diffida in futuro.

Instagram, ad ogni modo, sembra non essere proprio d’accordo. Una fonte che è a conoscenza dell’impresa ha detto a Motherboard che l’archivio distribuito viola i termini di utilizzo della piattaforma social, e che la compagnia sta prendendo provvedimenti per far chiudere il progetto.

Ciò nonostante, John e compagnia stanno comunque valutando varie opzioni per l’archivio, come trasformarlo in un database indicizzato per prevenire il catfishing, per cui le persone rubano le foto di altri account social e le usano per creare finti profili e ingannare la gente. Ha anche detto che è possibile immaginare un futuro in cui Instagram non esiste più, ma il contenuto che le persone gli hanno affidato negli anni ha ancora un gran valore per gli storici.

“Non sono del tutto sicuro che il progetto di archivio sia importante ora come ora,” ha detto John, “Di sicuro, quando e se Instagram non ci sarà più, le persone del futuro potranno riguardare le raccolte come questa e fare osservazioni culturali e analisi. Ma per il momento, la maggior parte delle persone mi guarda con gli occhi sgranati quando gli dico cosa sto facendo."

Seguici su Facebook e Twitter

Tagged:InstagramRedditDIYInternet ArchiveDistributed Archiver/datahoarderTechMotherboard