Molte nazioni puntano sull'utilizzo dei dati di
geolocalizzazione degli smartphone per
tracciare i movimenti dei cittadini. Lo scopo è analizzare questi movimenti per capire se le misure di lockdown siano rispettate. Quindi con il fine ultimo di
aiutare a limitare la pandemia da coronavirus. Il che è certamente un bene. E il sistema del monitoraggio, anche più stretto di questo, ha dimostrato di essere molto efficace.
L'approccio ha ovviamente provocato le reazioni degli organismi, essenzialmente europei, che devono tutelare la privacy dei cittadini. La risposta presupposta rassicurante fa leva su due capisaldi. L'eccezionalità dell'evento e l'
anonimizzazione garantita dei dati. Su entrambi si può dibattere. Molto più di quanto si sia fatto sinora. Pur continuando a riconoscere che il tracciamento è effettivamente utile nella lotta al coronavirus Sars-CoV-2.
Dibattere sull'eccezionalità o meno di una pandemia va oltre gli ambiti di SecurityOpenLab. Ma giova comunque ricordare l'opinione di molti studiosi, e non i più allarmisti:
un po' dovremo imparare a conviverci, con pandemie più o meno gravi. Il collasso degli ecosistemi, l'inurbamento e la riduzione della diversità ambientale sono già tre fattori più che sufficienti a favorire fenomeni come Covid-19. Una misura utile a contenere una epidemia potrebbe essere
replicata tutte le volte che è necessario. E addio eccezionalità. Quindi meglio pensarci bene subito, alla prima occasione.
Sull'
efficacia della anonimizzazione si discute da più tempo. A livello teorico è una buona idea. A livello pratico ha dimostrato diversi punti deboli. Molto dipende da quali dati si raccolgono, su quante persone. Soprattutto: che possibilità ci sono di
incrociare queste informazioni con altre.
Anonimizzazione e buonsenso
Aziende di ogni tipo
raccolgono una grande quantità di informazioni su di noi. È la digitalizzazione a permetterlo, perché una buona parte della nostra vita oggi è digitale. Oppure ha riflessi nel digitale. Nella pratica, opporsi a questa raccolta di dati ormai è quasi impossibile. Senza quasi, se non si presta continuamente attenzione ai propri comportamenti. Il nocciolo della questione, per la privacy, è che questi dati
non devono consentire di identificarci con precisione. Tranne casi in cui lo vogliamo esplicitamente.
Per questo anche diverse leggi a tutela dei consumatori si sono concentrate, più che sulla anonimizzazione dei dati in generale,
sulla de-identificazione. Ossia, sul fare in modo che chi ha per le mani un set di dati non possa identificare con precisione le singole persone che ne fanno parte. Di norma, la de-identificazione viene garantita
"oscurando" parte delle informazioni relative a una persona. O con altri metodi più evoluti. Ma di base l'idea è che eliminando le cosiddette PII (Personally Identifiable Information) da un set di dati, tutto è a posto.
Basta un po' di buonsenso per capire che
questo è vero sino a un certo punto. Dipende dalla quantità di informazioni che si raccolgono intorno alla singola persona. E l'abitudine delle imprese digitali è quella di raccoglierne il maggior numero possibile. Per profilarci meglio. E, per dirla tutta, perché
più informazioni si hanno meglio è. Anche se magari al momento non si sa bene cosa farsene. È proprio questa raccolta indiscriminata che leggi come il GDPR
cercano di contrastare. Senza, a quanto pare, il successo sperato.
Facciamo un esempio. Se i dati raccolti su di me - ad esempio con la registrazione ad un'app - indicano semplicemente che sono un maschio e abito in un certo quartiere, identificarmi con precisione è difficile. Quante persone di sesso maschile ci sono in quartiere? Troppe. Ma se i dati su di me indicano che sono un maschio che abita ad un certo indirizzo, nato in una certa regione, in un dato anno...
le possibilità di identificarmi aumentano. E lo fanno sensibilmente se qualcuno incrocia queste informazioni limitate con altre, magari altrettanto limitate ma in parte complementari.
La necessità di approfondire
Ci sono stati diversi casi in cui questo è successo. Casi che
fanno letteratura. Tanti, e con implicazioni legali tanto importanti, da far fiorire diverse ricerche sul tema. La domanda di fondo è:
quanti tipi di dati teoricamente "anonimi" servono per arrivare a identificare con precisione una persona? Che lo si faccia a partire da un singolo dataset oppure incrociando più set di dati distinti.
Lo Speciale di SecurityOpenLab dedicato ai temi tecnologici collegati alla pandemia
Non esiste una risposta unica perché ogni situazione può fare storia a sé. Ma esistono vari studi che danno riposte indicative importanti. Ne citiamo uno dello scorso anno, che ha avuto una certa risonanza. Portato avanti dalla Université Catholique de Louvain, in Belgio, e dall'Imperial College di Londra, indica in estrema sintesi che
bastano 15 attributi demografici per identificare precisamente (al 99,98%) una persona. Lo studio è stato fatto riferendosi alla popolazione del Massachusets, circa sette milioni di persone. La trattazione matematica è consultabile in esteso
a questo link.
Quindici attributi
sembrano tanti ma non lo sono. Le raccolte di dati (teoricamente non PII) sono spesso molto più estese. E comunque, lo stesso studio indica un altra conclusione di spicco. Su un campione di tre milioni di persone bastano data di nascita, stato di famiglia, sesso e indirizzo approssimato (il codice PUMA, che negli Stati Uniti identifica cluster locali con almeno centomila residenti) per identificare una persona con una
precisione del 78% circa. Non è poco.
Questo e altri studi simili
indicano due cose importanti. La prima è che la de-identificazione è molto meno sicura di quanto si creda. La seconda è che è possibile definire metodi matematici e statistici che rendono le identificazioni tutto sommato agevoli. Almeno per chi ha interesse a farle, una volta ottenuti - legalmente o meno - i dati necessari.
Proteggere la privacy a monte
Ci sono modi per garantire la privacy in una "cessione" di dati? Ragionevolmente sì, applicando alcune
tecniche di offuscamento e "confusione" delle informazioni. Tecniche che
sono ben note. E contemporaneamente non cedendo interi dataset ma
solo i dati che effettivamente servono. Se per una analisi servono solo, poniamo, cinque dati demografici, allora devono essere ceduti solo quelli. Opportunamente offuscati.
Tornando al caso del tracciamento via smartphone,
la geolocalizzazione in sé non ci identifica singolarmente. Il nostro operatore sa precisamente che siamo noi - o quantomeno uno smartphone con una SIM associata a noi - a spostarci, ma non cede (o non dovrebbe farlo) informazioni che ci identificano. Gli spostamenti di una persona sono comunque un dato importante, anche se non strettamente personale.
Il segnale che danno gli osservatori più attenti alla privacy, sulla base degli studi di statistica, è che bisogna comunque stare attenti. Le funzioni di anonimizzazione o pesudonimizzazione
sono molto più deboli di quanto non si creda. E la privacy va protetta a monte, contenendo al minimo le informazioni raccolte. Anche quando si è disposti a cederla, in parte, per uno scopo condiviso.