Skip to main content

Si tratta di una tecnica matematica per difendere la privacy in un set di dati.

di Angela Chen

Nel 2020, il governo degli Stati Uniti dovrà affrontare un serio impegno: raccogliere dati sui 330 milioni di residenti nel paese, mantenendo private le loro identità. I dati sono pubblicati in tabelle statistiche che i politici e gli accademici analizzano quando scrivono leggi o conducono ricerche. Per legge, l’Ufficio censimento si deve assicurare che non si possa risalire alle persone a cui appartengono i dati.

Ma ci sono trucchi per “disanonimizzare” le persone, soprattutto se i dati del censimento sono combinati con altre statistiche pubbliche. Per ostacolare questa pratica negativa, il governo statunitense utilizzerà la nuova tecnica nel censimento del 2020.

Il Census Bureau inserirà imprecisioni o “rumore” nei dati; farà sembrare alcune persone più giovani e altre più anziane o etichetterà alcuni bianchi come neri e viceversa, mantenendo allo stesso tempo il valore complessivo di ogni età o gruppo etnico. Più rumore si inietta, più diventa difficile capire chi c’è dietro il dato anonimo.

La privacy differenziale è una tecnica matematica che rende rigoroso questo processo, misurando l’incremento della privacy quando viene aggiunto “il rumore”. Il metodo è già utilizzato da Apple e Facebook per raccogliere dati aggregati senza identificare determinati utenti.

Ma troppo rumore può rendere inutili i dati. Un’analisi ha mostrato che una versione del Censimento del 2010 rivista con la tecnica della privacy differenziale arrivava a includere famiglie che di circa 90 persone.

Se tutto va bene, il metodo sarà probabilmente utilizzato da altre agenzie federali. Anche paesi come il Canada e il Regno Unito sono in attesa dei possibili sviluppi.

(rp)