Convertire il malware in immagini per l'analisi veloce

Un algoritmo di deep learning implementato da Microsoft e Intel è in grado di rilevare le minacce emergenti convertendo i malware in immagini 2D.

Autore: Redazione SecurityOpenLab

Microsoft e Intel stanno lavorando al progetto STAMINA, acronimo di STAtic Malware-as-Image Network Analysis. Consiste nell'applicare un nuovo approccio di deep learning per il rilevamento e la classificazione dei malware.

Il deep learning è un sottoinsieme dell'apprendimento automatico, che a sua volta è un ramo dell'Intelligenza Artificiale. Si riferisce a reti di computer che sono in grado di apprendere da soli dai dati di input non strutturati o senza etichetta. In questo caso si tratta di malware casuali.
Il progetto STAMINA si basa su una nuova tecnica che converte i campioni di malware in immagini in scala di grigi. Poi si scansiona l'immagine alla ricerca di pattern testuali e strutturali specifici dei campioni di malware di riferimento.

Il potenziale vincente di questa tecnica è che l'intero processo implica pochi e semplici passaggi. Il primo consiste nel prendere un file di input e convertire la sua forma binaria in un flusso di pixel grezzi. Il secondo prevede la conversione di questo flusso di pixel unidimensionale (1D) in una foto 2D. Così facendo i normali algoritmi di analisi delle immagini possono analizzarlo.

La larghezza dell'immagine viene definita in base alle dimensioni del file di input. La suddetta corrispondenza viene creata in funzione di dati predefiniti, che sono schematizzati nella tabella qui di seguito. L'altezza è dinamica e dipende dal valore di larghezza scelto.
A questo punto i ricercatori ridimensionano la foto risultante in una più piccola. Questo passaggio è importante per contenere le risorse di calcolo. Più l'immagine è grande, più i calcoli richiedono tempo. I rallentamenti influiscono negativamente sul risultato della classificazione.

Fin qui la parte computazionale. Ora entra in gioco la rete neurale. Le immagini ottenute con i passaggi precedenti vengono immesse in una rete neurale profonda pre-addestrata (DNN) che le scansiona, le confronta con le rappresentazioni 2D delle famiglie di malware e le classifica.

Per il confronto, Microsoft ha fornito un campione di 2,2 milioni di file PE (Portable Executable) infetti da utilizzare come base per la ricerca. I ricercatori hanno utilizzato il 60% dei campioni di malware noti per addestrare l'algoritmo DNN originale, il 20% dei file per convalidare il DNN e l'altro 20% per l'effettivo processo di test.

I test sono un successo

Secondo quanto riferito dal team di ricerca, STAMINA ha raggiunto una precisione del 99,07% nell'identificazione e nella classificazione di campioni di malware. Il tasso di falsi positivi è stato pari al 2,58%. "Questi risultati incoraggiano l'uso dell'apprendimento profondo ai fini della classificazione del malware", come sottolineano i ricercatori del Microsoft Intelligence Protection Protection Team, Jugal Parikh e Marc Marino.

Microsoft spiega che la precisione di STAMINA è maggiore quando si lavorava con file più piccoli. Con quelli di grandi dimensioni tende a confondersi: "diventa meno efficace a causa delle limitazioni insite nel convertire miliardi di pixel in immagini JPEG e nel ridimensionarle".

Questo indica che il progetto potrebbe essere maggiormente utilizzato per file di piccole dimensioni. L'obiettivo è rilevare le minacce emergenti.

Visualizza la versione completa sul sito

Informativa
Questo sito o gli strumenti terzi da questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie, consulta la cookie policy. Chiudendo questo banner, acconsenti all’uso dei cookie.