Vulnerabilità Nvidia e Docker minacciano AI e container

Una patch incompleta di Nvidia e una falla DoS in Docker espongono infrastrutture AI e container a furti dati e interruzioni. Ecco le mitigazioni urgenti da applicare.

Infrastrutture AI, dati sensibili e ambienti containerizzati sono esposti a rischi significativi - tra cui furti di modelli proprietari di AI e interruzioni operative prolungate - per via di una vulnerabilità critica parzialmente non risolta negli update pubblicati da Nvidia. A complicare il quadro c’è anche una falla DoS scoperta in Docker per Linux. L’allarme è lanciato dai ricercatori di Trend Research tramite il blog aziendale.

Due falle

Riavvolgiamo il nastro: a settembre Nvidia ha pubblicato la patch per la vulnerabilità critica monitorata con la sigla CVE-2024-0132 relativa al Nvidia Container Toolkit, a cui era assegnato un punteggio CVSS di 9.0. Tale falla permetteva a un container di eludere l’isolamento e di accedere al file system dell’host, sfruttando una condizione di race condition nota come time-of-check time-of-use (TOCTOU): in pratica, il software controlla se un’operazione è sicura, ma tra il momento del controllo e quello in cui l’operazione viene eseguita, l’attaccante può ingannare il sistema.

Una volta ottenuto questo accesso, l’attaccante può anche prendere il controllo dei socket del runtime container e da lì eseguire comandi con i massimi privilegi. Ciò significa che può rubare dati, modificare informazioni, bloccare servizi o addirittura prendere il controllo totale della macchina.

C'è anche un problema di prestazioni che potrebbe sfociare in una vulnerabilità Denial-of-Service sul computer host e che interessa Docker per Linux, in relazione alla seconda falla nominata sopra. Semplificando al massimo, quando si crea un container Docker con montaggi (mount) condivisi, il sistema operativo registra le connessioni tra il container e l’host in una ‘tabella dei mount’. Normalmente, queste voci dovrebbero essere cancellate quando il container viene chiuso. La vulnerabilità, invece, fa sì che tali voci rimangono nella tabella anche dopo la chiusura del container.

Questo causa un effetto a catena: ogni nuovo container con mount condivisi aggiunge nuove voci alla tabella. Un attaccante può creare e distruggere molteplici container in rapida successione, per fare che la tabella cresca senza controllo. Questo causa l’esaurimento di tutti i file descriptor disponibili e sfocia nel blocco del sistema. A questo punto Docker non può più creare nuovi container, l’host diventa inaccessibile via SSH o altri protocolli e le applicazioni esistenti crashano per mancanza di risorse. Il pericolo di questa falla è dovuto al fatto che un attaccante può bloccare interi server in pochi minuti, semplicemente lanciando script automatici, colpendo per lo più ambienti cloud o server condivisi. Ironia della sorte, non serve alcun privilegio speciale per scatenare il blocco del sistema: basta avere accesso all’API di Docker.

Secondo Trend Research, la combinazione delle due vulnerabilità appena descritte sommariamente può causare una il furto o l’alterazione di dati e contestualmente il blocco prolungato dei servizi – che equivale a ore o giorni di downtime, con costi elevati per ripristinare sistemi e riconfigurare ambienti.

Rischi e mitigazione

Secondo gli esperti, sono da considerarsi a rischio le aziende che utilizzano Nvidia Container Toolkit nelle versioni 1.17.3 o 1.17.4 e precedenti, con abilitata la funzionalità allow-cuda-compat-libs-from-container. Inoltre, ci sono problemi a carico degli ambienti cloud, AI o containerizzati, basati su Docker e con configurazioni predefinite.

Per ridurre l’esposizione al rischio, Trend Micro raccomanda di attuare una restrizione dei privilegi Docker, restringendo l’accesso alle API Docker solo a utenti autorizzati, di disabilitare le funzionalità non critiche, in primis quella sopraccitata allow-cuda-compat-libs-from-container, a meno che non sia strettamente richiesta. È caldeggiato poi l’uso di uno scanner di vulnerabilità e l’attuazione del monitoraggio proattivo, che consiste nell’ispezione periodica della tabella dei mount del kernel e nell’implementazione di sistemi di detection. Infine, sarebbe buona norma verificare l’efficacia degli aggiornamenti applicati.