Protezione dei dati

Differential privacy: algoritmi, anonimizzazione e protezione dei dati

Il procedimento di de-anonimizzazione dei dati può non essere sufficiente a garantire l’anonimato delle persone, come dimostrano alcuni esperimenti. La privacy differenziale, per contro, sembra offrire maggiori garanzie

29 Nov 2021

Anna Capoluongo

Avvocato, DPO, Vicepresidente I.R.L.E.S.S., membro GdL sull’intelligenza artificiale (ANORC)

In una società sempre più digitalizzata e data driven come quella odierna, argomenti come big data, intelligenza artificiale, algoritmi e machine learning spesso aprono profili di incertezza circa – quanto meno – alla sicurezza delle informazioni e alla “privacy” dei dati personali trattati. Tra gli altri, uno degli ambiti in cui il trattamento del dato, da un lato, e il rischio nel suo utilizzo, dall’altro, si incontrano in un terreno mediano altamente pericoloso è quello del cd. reverse engineering (o ingegneria inversa), ossia – nel caso di specie – la de-anonimizzazione dei dati personali di persone fisiche. E poi c’è la privacy differenziale, che permette l’anonimizzazione dei dati già nella fase di acquisizione degli stessi mediante l’utilizzo di appositi algoritmi e l’inserimento di un elemento di disturbo.

La de-anonimizzazione dei dati

In tal senso, per esemplificare concretamente, è utile ricordare un caso realmente verificatosi nel 2006. In quell’anno Netflix pubblicò una classifica di 10 milioni di film al fine di scovare sistemi (cd. recommendation systems[1]) migliori di quelli in uso al tempo, grazie alla sfida lanciata in occasione della open competition Netflix Prize a sviluppatori e appassionati di machine learning.

WHITEPAPER
DATI: fonte imprescindibile per le aziende! PROTEGGILI e mantienili CONFORMI alle regole
Big Data
Sicurezza

Il database pubblico su cui lavorare era formato da circa 500mila record anonimizzati, in cui i dati personali erano stati “sostituiti” con numeri casuali, così come sottolineato anche nelle FAQ di accompagnamento fornite dalla Società: “Ci sono informazioni sui clienti nel set di dati che dovrebbero essere mantenute private?

No, tutte le informazioni identificative dei clienti sono state rimosse; tutto ciò che rimane sono le valutazioni e le date. Questo segue la nostra politica sulla privacy. […] Anche se, per esempio, tu conoscessi tutte le tue valutazioni e le loro date, probabilmente non potresti identificarle in modo affidabile nei dati perché è stato incluso solo un piccolo campione (meno di un decimo del nostro set di dati completo) e quei dati sono soggetti a perturbazioni“.

Eppure, due ricercatori della Cornell University (Texas), Arvind Narayanan e Vitaly Shmatikov[2], riuscirono a de-anonimizzare i dati di Netflix[3], confrontando classifiche dei film (ratings) e marcatori temporali (timestamp) con informazioni pubblicamente disponibili nell’Internet Movie Database (IMDb).

A tal proposito, Shmatikov disse: “Releasing the data and just removing the names does nothing for privacy. If you know their name and a few records, then you can identify that person in the other (private) database”.

“Ciò che i ricercatori dell’Università del Texas sono riusciti a dimostrare è, allora, che questo processo non è così impossibile da replicare e, in diversi casi, non richiede nemmeno una mole elevata di dati. Se si eliminano, difatti, i 100 migliori film che tutti guardano, ovvero i risultati più comuni, il resto dei comportamenti individuali in rete costituisce un’impronta digitale (fingerprint), in molti casi, facilmente riconoscibile[4].

Sul punto, è bene ricordare che anche di recente “un gruppo di ricercatori dell’Imperial College di Londra[5] ha dimostrato la possibilità (rectius, la semplicità) di ricollegare i dati anonimizzati ai corrispondenti interessati, mediante l’utilizzo dell’intelligenza artificiale (AI).

Come si è visto, l’anonimizzazione, utilizzando alcune tecniche, tra cui anche lo stripping, in cui i dati vengono letteralmente fatti “a strisce” e poi archiviati dopo averne mescolato i pezzi, richiede una chiave di cifratura per poter ricomporre le informazioni. La ricerca, però, ha dimostrato che, utilizzando tecniche di machine learning, è possibile ricostruire l’identità dell’utente[6], a partire da quelle “strisce” apparentemente senza senso, mediante una sorta di processo di retro-engineering.

I ricercatori hanno quindi sviluppato un modello in grado di incrociare i dati disponibili (ad es. il colore dell’automobile che si possiede), sulla base delle probabilità che ciascuna caratteristica ha di descrivere una persona specifica[7].

Anonimizzazione e pseudonimizzazione

Appare evidente, quindi, come l’anonimizzazione assurga a punto focale, e vada correttamente e doverosamente distinta dalla pseudonimizzazione.

Con riferimento a quest’ultima, “il GDPR viene in aiuto inquadrandola come quel trattamento che permette che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive. (…) al Considerando 26 recita:I dati personali sottoposti a pseudonimizzazione, i quali potrebbero essere attribuiti a una persona fisica mediante l’utilizzo di ulteriori informazioni, dovrebbero essere considerati informazioni su una persona fisica identificabile. Per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi, come l’individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in considerazione l’insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l’identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici”.

La pseudonimizzazione, infatti, continua a permettere una identificazione dell’individuo persona fisica, anche se in maniera indiretta.

L’anonimizzazione, invece, basandosi sulla rimozione di elementi che permettano di risalire alla persona fisica specifica, rende di norma quasi impossibile la reversibilità del dato (…) Ma tale misura può essere realizzata secondo differenti tecniche, due su tutte l’aggregazione e la de-identificazione. Nel primo caso, trattandosi di dati aggregati e dunque di una sommatoria di dati di molti individui, la possibilità di una re-identificazione è decisamente remota. Nella seconda, invece, i dati personali sono mantenuti intatti, ma specifiche informazioni di identificazione vengono sostituite con identificatori anonimi.

Tale pratica presenta, quindi, dei profili di rischio in termini di identificabilità dell’interessato. Si pensi, per ipotesi, alla banca dati di una prigione che conservi i precedenti penali di un detenuto unitamente alla sua storia medica. Il detenuto, mediante i dati relativi alla fedina penale, potrebbe essere identificato anche senza il nome, e di conseguenza si potrebbe facilmente avere accesso non autorizzato anche alla sua storia medica[8].

Differential privacy, cos’è

Ecco perché, quindi, già da anni si è iniziato a pensare e a implementare la cd. differential privacy, teorizzata nel “Foundation of differential privacy” di Aaron Roth, docente della University of Pennsylvania, e Cynthia Dwork[9], ricercatrice di Microsoft, e di fatto concretamente applicata nel progetto Smart Noise[10].

Anche in virtù del fatto che tale tecnica sembrerebbe promettere innumerevoli vantaggi, quali la protezione contro rischi quali la re-identificazione; la neutralizzazione automatica degli attacchi di collegamento; la quantificazione della perdita di privacy; l’analisi e il controllo della perdita di privacy cumulativa su più calcoli; l’analisi e il controllo della perdita di privacy sostenuta da gruppi (es. famiglie); l’immunità, per così dire, dalla post-elaborazione.

Ciò detto, e addentrandosi nella lettura del paper sopra citato, si apprende che si tratta di una privacy per processo basata sul concetto di casualità, in cui prima di registrare una risposta, viene inserito un “rumore o white noise” al fine di anonimizzare la risposta stessa.

Per spiegarla meglio, i due autori scrivono quanto segue: “Un primo esempio di privacy per processo randomizzato è la risposta randomizzata, una tecnica sviluppata nelle scienze sociali per raccogliere informazioni statistiche su comportamenti imbarazzanti o illegali (…) Ai partecipanti allo studio viene detto di riferire se hanno o meno la proprietà P come segue:

1. Lanciare una moneta.

2. Se è croce, rispondere sinceramente.

3. Se testa, lanciare una seconda moneta e rispondere “Sì” se testa e “No” se croce.

La “privacy” deriva dalla plausibile negabilità di qualsiasi risultato; in particolare, se avere la proprietà P corrisponde a un comportamento illegale, anche una risposta “Sì” non è incriminante, poiché questa risposta si verifica con una probabilità di almeno 1/4 che l’intervistato abbia o meno la proprietà P. La precisione deriva dalla comprensione della procedura di generazione del rumore (l’introduzione di risposte “Sì” e “No” spurie dalla randomizzazione): Il numero previsto di risposte “Sì” è 1/4 volte il numero di partecipanti che non hanno la proprietà P più 3/4 del numero che ha la proprietà P. Quindi, se p è la vera frazione di partecipanti che hanno la proprietà P, il numero previsto di risposte “Sì” è (1/4) (1-p)+(3/4)p = (1/4)+p/2. Così, possiamo stimare p come il doppio della frazione che risponde “Sì” meno 1/2, cioè 2((1/4) + p/2) – 1/2.

La randomizzazione è essenziale; più precisamente, qualsiasi garanzia di privacy non banale che tenga conto di tutte le fonti presenti o anche future di informazioni ausiliarie, compresi altri database, studi, siti web, comunità online, pettegolezzi, giornali, statistiche governative e così via, richiede la randomizzazione. Questo segue da un semplice argomento ibrido, che ora abbozziamo. Supponiamo, per amore di contraddizione, di avere un algoritmo deterministico non banale. La non banalità dice che esiste una query e due database che producono risultati diversi sotto questa query. Cambiando una riga alla volta vediamo che esiste una coppia di database che differiscono solo per il valore di una singola riga, sulla quale la stessa interrogazione produce output diversi. Un avversario, sapendo che il database è uno di questi due database quasi identici, apprende il valore dei dati nella riga sconosciuta”.

A voler semplificare, quindi, la privacy differenziale permette l’anonimizzazione dei dati già nella fase di acquisizione degli stessi mediante l’utilizzo di appositi algoritmi e l’inserimento di un elemento di disturbo quale il “rumore”, applicato in maniera randomica. E questo, di norma, avviene mediante l’utilizzo di 3 componenti: hashing, subsampling e noise injection.

Si noti, inoltre, che l’aspetto dell’anonimizzazione “ab origine” rileva anche sotto l’ulteriore profilo del ri-utilizzo del dato, nel senso dell’impossibilità per il Titolare di non applicare la misura dell’anonimizzazione (“pre impostata”, appunto), trattare ulteriormente o diversamente i dati (a quel punto non ancora anonimizzati) e, potenzialmente, esporsi in misura maggiore al rischio di data breach nei passaggi tra l’acquisizione e l’applicazione della misura di sicurezza.

La condivisione dei dati nei sistemi di privacy differenziale

Sembra, poi, opportuno approfondire un aspetto (rappresentato nell’immagine che segue) legato alla condivisione dei dati nei sistemi di privacy differenziale, condivisione che avviene tramite richieste dette query. Quando viene inviata una query, i cd. meccanismi di privacy aggiungono rumore, restituendo un’approssimazione dei dati che garantisce la privacy e il cui risultato viene visualizzato all’interno di un report[11].

Ancora, è prevista la possibilità di misurare il rumore di un report, mediante il valore detto epsilon che è inversamente proporzionale al rumore/privacy. inversa con il rumore o la privacy, così che quanto più basso è il valore epsilon, tanto più rumorosi (e privati) sono i dati.

SmartNoise

Degno di nota sul punto, infine, è anche il recente comunicato del Garante privacy spagnolo (AEPD) dello scorso ottobre, che sottolinea ancora una volta come il valore strategico dei dati personali per le imprese sia evidente, così come innegabile è il rischio che il trattamento massiccio di dati personali possa comportare per i diritti e le libertà degli individui, nonché per la società tutta.

In tale ottica risulta necessario garantire che i trattamenti effettuati non interferiscano con la vita privata delle persone, in un continuo balance test tra lo sfruttamento legittimo delle informazioni e il rispetto dei diritti individuali.

Privacy differenziale come tecnica di miglioramento della privacy

Una delle strategie volte a preservare l’utilità dei dati nel rispetto della privacy è proprio quella della citata differencial privacy, tanto che – rileva il Garante – la stessa viene applicata anche dall’Ufficio del Censimento degli Stati Uniti per garantire l’accuratezza delle statistiche, impedire la divulgazione delle informazioni personali vengano e, di riflesso, aumentare fiducia dei cittadini nella sicurezza dei dati che forniscono.

La privacy differenziale, continua l’AEPD, può rientrare in una delle tecniche di miglioramento della privacy (PET, Privacy Enhancing Technologies) “volte a stabilire garanzie di protezione dei dati fin dalla progettazione attraverso l’attuazione pratica di strategie di astrazione dell’informazione”, trovando il proprio “fondamento nella Legge dei Grandi Numeri, un principio statistico che stabilisce che quando la dimensione del campione cresce, i valori medi che ne derivano si avvicinano al valore medio reale dell’informazione. In questo modo, l’aggiunta a tutti i dati di un rumore casuale permette di compensare questi effetti e di produrre un valore essenzialmente equivalente. Il concetto “essenzialmente equivalente” non significa che il risultato ottenuto sia identico, ma che il risultato concreto derivante dall’analisi derivante dall’insieme originale di dati, e il risultato dell’insieme a cui è stata applicata la diversa privacy sono, funzionalmente, equivalenti. Ciò consente di incorporare la “negazione plausibile” che i dati di un determinato soggetto si trovino nel set di dati in esame”.

Il Garante spagnolo riporta, poi, una versione semplificata dello schema di funzionamento del modello differenziale, così come da figura che segue:

Conclude, infine, evidenziando come ci siano diversi tipi di analisi a cui si può applicare la privacy differenziale, quali, ad esempio, il conteggio di occorrenze, gli istogrammi, le regressioni lineari, le funzioni di distribuzione cumulativa, l’apprendimento automatico, etc., in realtà già ampiamente utilizzati in applicazioni pratiche[12] come, ad esempio, Uber nell’analisi della distanza dei percorsi.

Un altro esempio pratico dell’uso della privacy differenziale è il monitoraggio dei dati di frequenza cardiaca raccolti attraverso i wearable devices, laddove il dispositivo intelligente identifica punti evidenziati nei flussi di dati per poi, applicando la privacy differenziale locale, disturbarli aggiungendo rumore prima di inviarli al server per la ricostruzione, analisi e memorizzazione.

Note

  1. Ossia software di filtraggio dei contenuti che, prevedendo quanto è quantitativamente forte l’interesse di un utente nei confronti di un determinato oggetto/servizio, riescono a creano dei suggerimenti personalizzati specifici per l’utente così da aiutarlo nelle sue scelte.
  2. Si veda https://www.cs.cornell.edu/~shmat/shmat_oak08netflix.pdf.
  3. Circa l’80% dei nominativi anonimizzati.
  4. A. P. Paliotta, https://www.ictsecuritymagazine.com/articoli/la-de-anonimizzazione-dei-dati-personali-il-caso-del-dataset-netflix/.
  5. Rocher, L., Hendrickx, J.M. & de Montjoye, YA. Estimating the success of re-identifications in incomplete datasets using generative models. Nat Commun 10, 3069 (2019), https://doi.org/10.1038/s41467-019-10933-3.
  6. Nello studio è stato possibile ricostruire l’identità del 99,8% degli utenti statunitensi, partendo da sole quindici caratteristiche.
  7. A. Capoluongo, “Videosorveglianza: the Game Changer”, cap. 13, Ed. Themis, 2021.
  8. A. Capoluongo, GDPR e IoT, l’impatto della normativa europea sulle tecnologie connesse, https://www.cybersecurity360.it/legal/privacy-dati-personali/gdpr-e-iot-limpatto-della-normativa-europea-sulle-tecnologie-connesse/.
  9. Si veda http://www.dbis.informatik.hu-berlin.de/fileadmin/lectures/SS2011/VL_Privacy/Differential_Privacy.pdf.
  10. Microsoft e Harvard hanno sviluppato congiuntamente SmartNoise, una piattaforma di privacy differenziale che aggiunge una quantità accuratamente calibrata di rumore statistico ai dati sensibili. La piattaforma consente di generare un dataset “sintetico” attraverso un modello statistico basato sul dataset originale. Il dataset sintetico rappresenterà quindi un campione falsificato, che però deriva dai dati originali e che manterrà il maggior numero possibile di caratteristiche statistiche, consentendo quindi di ottenere gli stessi risultati ma rendendo inutile qualsiasi analisi per risalire alle informazioni originali”, https://www.notizie.ai/smartnoise-da-microsoft-e-harvard-un-sistema-di-privacy-differenziale/.
  11. I report sono costituiti da due parti: dati effettivi elaborati e descrizione della modalità di creazione dei dati.
  12. Tra le più famose, quelle di Google (https://storage.googleapis.com/pub-tools-public-publication-data/pdf/42852.pdf), Apple (https://docs-assets.developer.apple.com/ml-research/papers/learning-with-privacy-at-scale.pdf) e Microsoft (https://www.microsoft.com/en-us/ai/ai-lab-differential-privacy?SilentAuth=1&wa=wsignin1.0).

WHITEPAPER
Previeni i difetti di sicurezza nelle applicazioni: la soluzione in 5 punti
Sicurezza
Software
@RIPRODUZIONE RISERVATA
C
Anna Capoluongo
Avvocato, DPO, Vicepresidente I.R.L.E.S.S., membro GdL sull’intelligenza artificiale (ANORC)

Articolo 1 di 5