Secondo Gartner, tra qualche anno le imprese non potranno più considerare affidabili i propri sistemi di identificazione. Per colpa dei deepfake.
Autore: f.p.
La creazione di volti e parlato digitali grazie alle funzioni di AI generativa, a volte a partire da "basi" realmente esistenti e a volte no, sta diventando sempre più un potenziale problema. Negli Stati Uniti, ad esempio, in queste settimane c'è polemica sull'utilizzo dei deepfake audio come semplice strumento di marketing e persino come mezzo per influenzare l'andamento delle elezioni.
Nel primo ambito, la FCC sta per votare una mozione che catalogherebbe come illegale l'utilizzo di voci generate da AI nelle chiamate di telemarketing. Questo uso si è notevolmente incrementato negli ultimi tempi e, spiega la FCC, la clonazione della voce di persone reali e le immagini generate dall'Intelligenza Artificiale "stanno già seminando confusione, inducendo i consumatori a pensare che truffe e frodi siano legittime".
La decisione della FCC sull'uso della AI generativa è stata probabilmente accelerata da un caso eclatante dello scorso gennaio. Molti elettori dello Stato USA del New Hampshire hanno ricevuto un messaggio registrato con la (finta) voce del Presidente Biden che li incoraggiava a non votare alle elezioni primarie presidenziali del loro Stato. Favorendo ovviamente il candidato avverso a chi simpatizza con il Presidente Biden.
Passando dalla sintesi vocale a quella di immagini, ha fatto anche più notizia la diffusione online di "deepfake porn" che ha colpito Taylor Swift. Le giuste polemiche nate dopo la scoperta di questi deepfake sembrano poter avere conseguenze anche più importanti del caso Biden sul - sinora bassissimo, inesistente - livello di controllo da parte dei social network sulla diffusione di certi contenuti. E potrebbe accelerare lo sviluppo di leggi ad hoc di cui si sente certamente il bisogno.
Lato aziende, ora Gartner avvisa che queste evoluzioni nelle tecnologie di AI generativa rappresentano una fonte di problemi anche per i sistemi di sicurezza e cybersecurity delle imprese. Già oggi gli hacker ostili e la criminalità informatica usano deepfake generati dall'AI per superare i controlli biometrici. Queste forme di attacco si intensificheranno molto nei prossimi anni, sottolinea Gartner, tanto che entro il 2026 per il 30% delle aziende i normali controlli biometrici non saranno più abbastanza affidabili per la verifica delle identità. Le aziende, spiega Gartner, di conseguenza "potrebbero iniziare a mettere in dubbio l'affidabilità delle soluzioni di verifica dell'identità e di autenticazione, in quanto non saranno in grado di stabilire se il volto della persona da verificare è una persona in carne e ossa o un deepfake".
Stabilire se il volto inquadrato da, ad esempio, una webcam in un processo di riconoscimento facciale sia reale o meno non è certo un problema nuovo: nel tempo i criminali hanno adottato vari mezzi per simulare i tratti fisici di una determinata persona. Tecnicamente detti Presentation Attack Instrument, o PAI, questi mezzi possono comprendere tra l'altro fotografie, maschere e clip video. Per aggirare l'identificazione biometrica tramite impronta digitale si usano davvero impronte replicate in silicone, come nei film di spionaggio. Ed esistono anche immagini sintetiche di iridi, per aggirare i sistemi che le analizzano.
Per contrastare questi attacchi, i software di sicurezza e cybersecurity sono stati man mano potenziati con forme sempre più evolute della cosiddetta PAD: Presentation Attack Detection. Le Digital Identity Guidelines del NIST definiscono la PAD come un insieme di metodi che possono identificare un Presentation Attack attraverso la "liveness detection", che a sua volta comprende controlli come "la misurazione e l'analisi di caratteristiche anatomiche o di reazioni involontarie o volontarie, al fine di determinare se un campione biometrico viene acquisito da un soggetto vivente presente nel punto di acquisizione".
C'è anche uno standard - ISO/IEC 30107-1:2023 - ratificato per dare una base formale alla PAD, definendone una volta per tutte i termini chiave e un framework procedurale attraverso cui gli attacchi via PAI vanno "specificati e rilevati in modo da poter essere categorizzati, dettagliati e comunicati per le successive attività decisionali e di valutazione delle prestazioni del sistema biometrico".
Esistono molte forme più o meno complesse di PAD. In quelle cosiddette "attive" si può verificare se c'è effettivamente qualcuno davanti a una webcam chiedendo a chi si identifica di effettuare determinati movimenti, come annuire o chiudere gli occhi. Nelle forme "passive" si analizzano ad esempio i movimenti involontari o si usano sensori specifici - come quelli a infrarossi o per la valutazione delle distanze nelle tre dimensioni - per capire se la persona davanti al sistema di riconoscimento è reale.
Tutto bene, ma ora analisti come Gartner ritengono che le attuali forme di PAD non siano a priori sufficienti per gli attacchi resi possibili dall'AI generativa. Il principale problema in più sono i digital injection attack, in cui - ad esempio - immagini sintetiche o deepfake video sono passati direttamente ai sistemi di identificazione bypassando la videocamera che dovrebbe riprendere il soggetto da identificare.
Secondo le cifre di Gartner, gli injection attack sono triplicati tra il 2023 e il 2022, rappresentando così un fenomeno preoccupante che richiede attenzione. E da parte di tutti, perché i vendor tecnologici della sicurezza e della cybersecurity devono sviluppare nuove funzioni di controllo dell'identificazione allineate alle nuove minacce, ma da parte loro i CISO devono accertarsi di utilizzare soluzioni biometriche che siano davvero all'avanguardia in questo campo.
"Le aziende dovrebbero iniziare a definire una baseline minima di controlli, collaborando con i fornitori che hanno investito specificamente nella mitigazione delle più recenti minacce basate su deepfake", consiglia Gartner. Una mitigazione del genere è affrontabile: alcuni vendor, ad esempio, nei processi di identificazione facciale esaminano non solo il fotogramma catturato da una telecamera ma anche i dettagli identificativi della telecamera stessa, per capire se il flusso video di identificazione arriva effettivamente da una telecamera "ufficiale" o è stato ripreso da un'altra, evidentemente a scopo malevolo.