L'
Intelligenza Artificiale è di gran moda, anche e soprattutto in
cyber sicurezza. Quasi tutte le aziende di cyber security hanno ormai integrato nelle proprie soluzioni delle componenti di AI e di
machine learning per la threat intelligence. Il motivo è che rendono
più veloce ed efficiente il rilevamento degli attacchi.
L'apprendimento automatico è una forma di AI che consente ai computer di analizzare i dati e scoprirne il significato. L'uso dell'apprendimento automatico nella cyber sicurezza consente di rilevare più rapidamente gli attacchi rispetto agli esseri umani. E di bloccarli prima che si verifichino danni maggiori. Inoltre, l'apprendimento automatico può analizzare le minacce e ridurne il numero da monitorare a un insieme più piccolo, riducendo il numero di falsi positivi.
Fin qui la teoria. In pratica non tutto funziona sempre ed esattamente così. Uno degli errori che molti commettono è
pensare che l'IA migliori magicamente la sicurezza. Non è una bacchetta magica. Chi lo pensa, rischia di peggiorare le cose anziché migliorarle.
Ci sono diversi elementi che distinguono una soluzione di AI per la cyber sicurezza dall'altra. È importante tenerne conto per evitare guai.
I feed di intelligence
Per poter lavorare, AI e machine learning analizzano gli input e producono degli output.
Se gli input sono di basso livello, lo saranno anche gli output. Questo significa che non tutti gli algoritmi di apprendimento automatico generano report di alta qualità.
L'input che serve per il rilevamento degli attacchi si basa sulle fonti di threat intelligence. Inclusi i feed, che contengono le informazioni utili per riconoscere un
attacco. Si tratta, per esempio, di indirizzi IP dei computer che emettono attacchi, nomi di file che tipicamente si riallacciano a malware, e via dicendo.
Il software di sicurezza deve usare
feed di altissima qualità per "istruire" adeguatamente il machine learning a bloccare effettivamente le minacce.
La qualità è indicata da alcuni parametri chiave. Il primo è la frequenza con cui viene aggiornato il feed. Le minacce cambiano rapidamente, il feed deve essere aggiornato di continuo. I dati del feed devono essere quanto più precisi possibile. L'indirizzo IP da cui proviene un attacco dev'essere preciso, altrimenti non verrà bloccato. Inoltre, il feed deve includere le
minacce provenienti da tutto il mondo, perché abbiamo visto più volte come attacchi che hanno avuto origine in un continente si siano diffusi a livello planetario. Basta pensare alle
botnet per rendersene conto. In ultimo, il feed deve includere tutte le informazioni sulle minacce di cui hanno bisogno gli strumenti di rilevamento.
Come si valuta la qualità dell'intelligence sulle minacce
Dato che i feed sono creati per le macchine, è difficile valutarne direttamente la qualità. La valutazione più attendibile è sul
numero di falsi positivi che si verificano utilizzandoli. Se la threat intelligence è di qualità elevata, i falsi positivi saranno minimi quando viene utilizzata dagli strumenti di rilevamento, senza machine learning.
Perché non conteggiamo l'apprendimento automatico e perché insistiamo tanto sui falsi positivi? In primo luogo, l'apprendimento automatico dev'essere messo nella migliore condizione possibile per ridurre al minimo i falsi positivi.
In secondo luogo, i falsi positivi sono il vero pericolo se si utilizza una threat intelligence con apprendimento automatico per eseguire operazioni come il blocco automatico degli attacchi. Nel caso peggiore, gli errori interromperanno l'attività benigna e lasceranno passare quella maligna.
Questo significa anche che l'intelligence sulle minacce non funziona da sola.
Dev'essere calata in un contesto. Ad esempio il ruolo, l'importanza e le caratteristiche operative di ogni computer. Per comprendere il concetto, facciamo un esempio. Viene rilevato un problema sul traffico di rete in uscita da un particolare indirizzo IP. Se l'IP identifica un server di database merita una certa azione. Se corrisponde a un endpoint su cui non ci sono dati sensibili la rilevanza è differente. Questo significa che l'apprendimento automatico è più efficace se beneficia delle informazioni contestuali.