Il web scraping è uno strumento, non un crimine

Come giornalista, l’estrazione di dati da un sito web per mezzo di programmi software è uno degli strumenti più potenti a disposizione per stabilire le responsabilità di aziende e governi.

di Lam Thuy

In qualità di reporter che sa programmare, posso raccogliere facilmente informazioni da siti web e account di social media per andare alla ricerca di storie. Tutto quello che devo fare è scrivere alcune righe di codice che vanno nell’etere, aprire siti Web e scaricare i dati che sono già disponibili pubblicamente sull’argomento. Questo processo è chiamato scraping, vale a dire “raschiatura”.

Ma c’è un calcolo che faccio nella mia testa ogni volta che inizio a seguire una storia che richiede lo scraping: “Vale la pena di andare in prigione per farlo?”. Non sto parlando di hackerare i database superprotetti della CIA, ma dell’utilizzo di uno script per raccogliere informazioni a cui posso accedere come utente Internet quotidiano, come post pubblici su Instagram o tweet che utilizzano un determinato hashtag.

La mia preoccupazione non è infondata. Una legge americana scritta in modo vago, chiamata Computer Fraud and Abuse Act, rende l’accesso a questo tipo di informazioni in modo programmatico un potenziale crimine. La legge, vecchia di decenni, è stata introdotta dopo che i legislatori hanno visto il il film WarGames, del 1983, e hanno deciso che gli Stati Uniti avevano bisogno di una legge anti-hacking che proibisse a chiunque di utilizzare un computer “senza autorizzazione o oltre l’accesso autorizzato”.

Anche se la legge aveva finalità positive ed è stata usata per perseguire persone che scaricano materiali che non dovrebbero sui loro sistemi di lavoro, ha preso nella sua rete diffusa anche molte altre persone, inclusi accademici, ricercatori, e giornalisti.

Cosa significa “andare oltre l’accesso autorizzato” nell’era dei social media? Un dipendente che ha accesso a un database di riviste di ricerca per lavoro e li utilizza per scopi privati è al di là dell’accesso autorizzato? Un giornalista come me che raccoglie informazioni utilizzando processi automatizzati e il proprio account Facebook commette un crimine?

Fino ad ora, le interpretazioni della legge sono variate da un caso all’altro, affidandosi a diversi giudici per stabilire una migliore definizione di cosa significhi esattamente superare il limite del proprio accesso autorizzato alle informazioni. Ma presto la Corte Suprema degli Stati Uniti si pronuncerà sulla legge per la prima volta, nel caso Van Buren contro gli Stati Uniti. Nathan Van Buren, un agente di polizia, aveva accesso a database riservati per lavoro e vendeva le informazioni che cercava a terzi. L’udienza è stata il 30 novembre e la corte potrebbe annunciare la sua decisione da un momento all’altro. (Si veda tweet)

Dalle tariffe sleali su Amazon alle espressioni di odio su Facebook, molti misfatti aziendali possono essere rintracciati attraverso le piattaforme su cui conduciamo gran parte della nostra vita. E la vasta impronta digitale che gli esseri umani lasciano online, gran parte della quale è pubblicamente disponibile, può aiutarci a colmare i buchi di dati e indagare su aree che altrimenti sarebbero difficili da comprendere.

Come ha sottolineato l’artista ed esperta di tecnologia Mimi Onuoha nel suo toccante pezzo The Library of Missing Datasets:

Ciò che ignoriamo rivela più di ciò a cui diamo la nostra attenzione. È in queste cose che troviamo riferimenti culturali e colloquiali su ciò che è ritenuto importante. I punti che abbiamo lasciato in bianco rivelano i nostri pregiudizi sociali nascosti e le nostre indifferenze.

La raccolta dei dati è costosa e laboriosa, ma è anche uno strumento importante per scoprire e rivelare le ingiustizie sistemiche. Quali dati riteniamo abbastanza importanti da raccogliere è una questione spesso lasciata a entità potenti – governi e società – che non sempre hanno a cuore le fasce più vulnerabili della società.

Se i funzionari del governo cinese non pubblicano informazioni sui campi in cui sono detenute le minoranze musulmane, allora forse è legittimo che i ricercatori possano utilizzare le informazioni di Google Maps per fornire un’idea approssimativa della portata di questo problema. Se gli autori non ammettono i crimini di guerra ma scrivono sull’argomento sui social media, i pubblici ministeri e i ricercatori sui diritti umani possono servirsene per metterli sotto accusa.

Le aziende come Facebook dovrebbero fare ricorso legale per interrompere la ricerca accademica? Dovrebbe esserci un’esenzione dal divieto quando il web scraping è l’unico modo per raccogliere dati che aiutano ricercatori, accademici e giornalisti a diagnosticare i mali della nostra società?

Twitter potrebbe aver modellato una via da seguire. Considerando il suo ruolo nella diffusione della disinformazione durante le elezioni americane del 2016, l’azienda ha deciso di creare un accesso speciale ai dati appositamente per accademici e ricercatori. Anche se l’azienda continua a disapprovare lo scraping, questo passaggio indica che riconosce quanto siano importanti i dati. Forse possono farlo anche i legislatori.

Lam Thuy Vo è una reporter di “BuzzFeed News”, che si occupa di disinformazione, odio online e responsabilità delle piattaforme. Il suo libro Mining Social Media è stato pubblicato da No Starch Press alla fine del 2019.

Foto: Ms Tech/Pixabay

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Social

Ultimi articoli

PsiQuantum intende costruire il più grande computer quantistico degli Stati Uniti

L’IA di Google DeepMind può ora risolvere complessi problemi matematici

L’IA addestrata sui rifiuti dell’IA produce rifiuti dell’IA.

Perché le aziende cinesi puntano sull’IA open-source

Il web scraping è uno strumento, non un crimine

Social

Il web scraping è uno strumento, non un crimine

Related Posts