GDPR

GDPR: quali differenze nella gestione dei dati

Anonimizzazione, pseudonimizzazione, cancellazione. Esaminiamo i vari termini relativi al termine del periodo di conservazione contenuti nel GDPR. Rischi e tecniche di anonimizzazione

Pubblicato il 16 Giu 2022

Andrea Citterio

Privacy Officer

Uno degli aspetti più importanti riguardanti il trattamento dei dati personali è la gestione al termine del periodo di conservazione. Il Titolare del trattamento deve stabilire come gestire questo aspetto già nella fase di progettazione. Solitamente si sente parlare di cancellazione o di anonimizzazione del dato. In altri casi di pseudonimizzazione. Può capitare, tuttavia, che parlando con i Titolari del trattamento non sia sempre compresa questa distinzione che è differente sia nella definizione, sia nella gestione dei rischi a cui il dato è sottoposto, sia ai costi che sono legati, a mio modo di vedere, sia alla tecnologia utilizzata, sia alla possibilità che il dato venga sottratto per altri fini (quindi al costo correlato alla gestione dell’evento).

Differenze tra le tipologie di gestione del dato

Prima di tutto ricordiamo la definizione di dato personale: l’art.4 del GDPR lo individua come qualsiasi informazione concernente una persona fisica identificata o identificabile anche indirettamente, oppure informazioni (es. codice fiscale, impronta digitale, traffico telefonico, immagine) riguardanti una persona la cui identità può comunque essere accertata mediante informazioni supplementari.

WHITEPAPER
Le strategie che fanno bene al business e alla cyber security
Disaster recovery
Identity & Access Management

Nel GDPR ritroviamo il concetto di cancellazione all’art.17: “L’interessato ha il diritto di ottenere dal titolare del trattamento la cancellazione dei dati personali che lo riguardano senza ingiustificato ritardo” quando i dati personali (i) non sono più necessari rispetto alle finalità per i quali erano stati raccolti, (ii) vi è la revoca del consenso o si sia opposto al trattamento dei dati personali che lo riguardano o (iii) quando il trattamento dei suoi dati personali non sia altrimenti conforme al Regolamento. Occorre quindi distinguere i casi in cui la cancellazione dei dati personali avviene per richiesta esplicita di un soggetto interessato e i casi in cui ciò avviene per la scadenza del termine di conservazione.

Il GDPR parla di pseudonimizzazione all’art.32 dove, al comma 1 lett.a, considera la pseudonimizzazione e la cifratura dei dati personali una delle misure tecniche e organizzative adeguate a garantire un certo livello di sicurezza adeguato al rischio che si presenta; di fatto stiamo parlando di dati personali nei quali gli elementi identificativi sono stati sostituiti da elementi diversi (ad es. stringhe di caratteri o numeri (hash), sostituzione al nome di un nickname) purché sia estremamente difficoltosa l’identificazione dell’interessato, sia direttamente che indirettamente; il soggetto che detiene la chiave per decifrare i dati (cioè collegare l’elemento pseudonimo al dato personale) dovrà garantire adeguate misure contro possibili abusi.

Arriviamo quindi al concetto di anonimizzazione, secondo il quale i dati possono essere considerati anonimi solo quando gli interessati non possono più essere identificati; ciò significa, come anche espresso dal Considerando 26 del Regolamento, che “Per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi, come l’individuazione, di cui il Titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente…

I principi di protezione dei dati non dovrebbero pertanto applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscano a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l’identificazione dell’interessato. Il presente regolamento non si applica pertanto al trattamento di tali informazioni anonime, anche per finalità statistiche o di ricerca”. Il Gdpr inoltre non dà alcuna indicazione sulle tecniche di anonimizzazione e, pertanto, sarà il Titolare del trattamento a garantire che il processo utilizzato sia realmente efficace. Come indicato nel Parere 05/2014 l’anonimizzazione può riguardare il trattamento di diversi dati personali allo scopo di rendere irreversibile l’identificazione dell’interessato. Sarà opportuno considerare tutti i mezzi che possono essere utilizzati per raggiungere lo scopo considerando che, per definizione, l’anonimizzazione di un dato deve garantire una valutazione sostanziale con particolare sguardo ai seguenti fattori chiave:

  • rapporto tra le finalità per le quali i dati sono stati raccolti e le finalità successive;
  • contesto in cui i dati sono stati raccolti e le ragionevoli aspettative degli interessati circa il loro impiego;
  • natura dei dati personali e l’impatto del trattamento successivo sugli interessati;
  • misure di salvaguardia adottate;
  • conformità ai vincoli giuridici richiamati dalla Corte di giustizia europea nella sua decisione in merito alla causa C-553/07 (College van burgemeester en wethouders van Rotterdam/M.E.E. Rijkeboer), in relazione alla necessità di conservare i dati in forma identificabile in modo da consentire, ad esempio, l’esercizio dei diritti di accesso da parte delle persone interessate.

I rischi dell’anonimizzazione

Un aspetto fondamentale da tenere presente sono i rischi connessi all’utilizzo delle tecniche di anonimizzazione. Partendo dal presupposto di non confondere l’anonimizzazione con la pseudonimizzazione (secondo la quale oltre ad essere una misura di sicurezza, si ha sempre la possibilità di identificare un interessato), un’efficace soluzione di anonimizzazione dovrebbe impedire di identificare un determinato interessato (c.d. individuazione), di collegare almeno due dati riguardanti la medesima persona in modo da identificarla anche all’interno di un gruppo di persone (c.d. correlabilità) e di desumere con un alto grado di probabilità il valore di un attributo rispetto a quelli di un insieme (c.d. deduzione). Il Gruppo di Lavoro suggerisce di individuare sempre nuovi rischi e di non affidarsi al fatto che quelli individuati siano da ritenersi sufficienti, di valutare sempre le tecniche di controllo, adeguandole ove necessario, e di effettuare un costante monitoraggio degli stessi. Il tutto si deve calare nel contesto reale in cui i dati sono trattati quali ad esempio le finalità, la natura dei dati, le dimensioni del campione da monitorare, la disponibilità di fonti esterne, la trasmissione dei dati a terzi.

Le tecniche di anonimizzazione

Tra le tecniche che un Titolare del trattamento può adottare abbiamo quelle di randomizzazione (aggiunta di rumore statico, permutazione, privacy differenziale) e quelle di generalizzazione (aggregazione, k-anonimato, l-diversità e t-vicinanza). Le prime consentono di modificare la veridicità del dato con l’intento di eliminare la correlazione tra i dati e l’interessato, impedendone quindi la deduzione. La seconda spinge a diluire gli attributi delle persone interessate modificando la scala o l’ordine di grandezza, impedendone quindi l’individuazione (ad es. utilizzare una regione anziché una città). Nella tabella che segue riassumiamo queste tecniche (che possono essere spesso utilizzate insieme per garantire una maggiore sicurezza) indicandone lo scopo e la permanenza o meno dei rischi sopra individuati.

Tecnica Descrizione Rischio individuazione Rischio correlabilità Rischio deduzione
Rumore statico Consiste nel modificare gli attributi contenuti in un insieme di dati in modo da renderli meno accurati e mantenendo, nel contempo, la distribuzione generale. All’atto di trattare un insieme di dati, un osservatore parte dal presupposto che i valori siano accurati, ma ciò corrisponde solo limitatamente al vero. Forse no

Un dato reale può essere correlato a uno artificiale rendendolo meno affidabile.

Forse no

La probabilità di successo di un attacco è minore e potrebbero generarsi falsi positivi o negativi.

Permutazione Consiste nel mescolare i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate. Di per sé non è sufficiente e dovrebbe essere affiancata ad altre tecniche come l’eliminazione degli attributi ovvi. Forse no Forse no

La probabilità di successo di un attacco è minore basandosi solo su una deduzione probabilistica

Privacy differenziale Può essere utilizzata quando colui che tratta i dati genera opinioni automatizzate di un insieme di dati e allo stesso tempo conserva una copi dei dati originali. Rende difficile accertare se un singolo individuo faccia parte o meno di un set di dati poiché il risultato di un determinato algoritmo apparirà lo stesso, indipendentemente dal fatto che le informazioni di un singolo individuo siano incluse oppure omesse. Forse no.

Se vengono prodotte solo statistiche e le norme applicate all’insieme sono scelte in maniera oculata, non dovrebbe essere possibile utilizzare le risposte per individuare una persona.

Forse no

Utilizzando richieste multiple potrebbe essere possibile correlare le informazioni relative a una persona specifica tra due risposte.

Forse no

È possibile dedurre informazioni su persone o gruppi ricorrendo a richieste multiple.

Aggregazione e

k-anonimato

Consistono nell’impedire l’individuazione di persone interessate mediante il loro raggruppamento con almeno k altre persone. A tale scopo, i valori degli attributi sono sottoposti a una generalizzazione tale da attribuire a ciascuna persona il medesimo valore. No

I medesimi attributi sono condivisi da k utenti all’interno di un gruppo.

Se tutte le k persone rientrano in uno stesso gruppo e se è noto a quale gruppo appartiene una persona, è semplice recuperare il valore di tale proprietà.

l-l-diversità

t-vicinanza

La l-l-diversità amplia il k-anonimato per impedire gli attacchi tramite deduzione deterministica facendo sì che in ciascuna classe di equivalenza ogni attributo abbia almeno l valori diversi.

La t-vicinanza rappresenta un affinamento della l-l-diversità nel senso che mira a creare classi equivalenti che assomigliano alla distribuzione iniziale di attributi nella tabella. La tecnica in oggetto è utile quando è importante mantenere i dati quanto più possibile prossimi a quelli originali.

No

La probabilità che le stesse informazioni appartengano alla medesima persona interessata è più elevata.

Forse no

Viene eliminata la possibilità di attaccare tramite deduzione una banca dati “l-diversa” o “t-t-vicina” con una sicurezza del 100%

È importante comunicare la tecnica di anonimizzazione o la combinazione di tecniche che si intende utilizzare, soprattutto se si prevede di pubblicare l’insieme dei dati anonimizzati. Come?

Attraverso questi accorgimenti:

  • eliminare dall’insieme di dati gli attributi ovvi;
  • se si ricorre alle tecniche di aggiunta del rumore statistico, il livello di rumore aggiunto ai dati va determinato in funzione del valore di un attributo (non dovrebbe essere aggiunto alcun rumore fuori scala), dell’impatto sulle persone interessate degli attributi da proteggere e/o del diradamento dell’insieme di dati;
  • se si ricorre alla privacy differenziale occorre considerare la necessità di tenere traccia delle interrogazioni in modo da individuare quelle che violano la sfera privata;
  • se si attuano tecniche di generalizzazione è fondamentale che il Titolare del trattamento non si limiti a un solo criterio di generalizzazione anche per il medesimo attributo, ma occorre selezionare diversi gradi di dettaglio delle località o diversi intervalli temporali. La selezione del criterio da applicare dev’essere determinata dalla distribuzione dei valori degli attributi nella popolazione interessata;
  • occorre garantire la variabilità all’interno delle classi di equivalenza, ad esempio, scegliendo una soglia specifica a seconda degli “elementi contestuali” già menzionati (dimensione del campione, ecc.) e, se tale soglia non viene raggiunta, il campione specifico dovrebbe essere scartato (oppure dovrebbe essere stabilito un criterio di generalizzazione diverso).

Conclusioni

L’utilizzo dell’anonimizzazione può dare adeguate garanzie di protezione dei dati personali e quindi dell’interessato ma, come si è capito, queste avranno efficacia solo se correttamente progettate. Anche quando sembra improbabile recuperare con precisione i dati di un interessato, potrebbe comunque essere possibile utilizzare altre fonti. Il consiglio è di utilizzare la combinazione di diverse tecniche e di non soffermarsi a una semplice valutazione del rischio ma di effettuare una vera e propria DPIA.

Solo laddove il risultato di questa analisi porti a una valutazione ottimale del rischio residuo, allora ci si potrà affidare all’anonimizzazione del dato. Laddove il gioco non ne vale la candela o, in altri casi, il risultato potrebbe essere ottenuto ugualmente in altro modo (recentemente ho trattato un caso in cui il medesimo obiettivo si poteva ottenere attraverso la cancellazione dei dati non necessari) è bene ricercare una diversa soluzione.

WHITEPAPER
Finanza Digitale: proteggiti dagli hacker (e dalle sanzioni) con il DORA
Contract Management
Privacy/Compliance
@RIPRODUZIONE RISERVATA

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

C
Andrea Citterio
Privacy Officer
Argomenti trattati

Approfondimenti

D
data privacy
D
data protection
G
GDPR