LLM e jailbreak: una nuova tecnica automatizza gli attacchi

Il Jailbreaking-to-Jailbreak sfrutta LLM compromessi per automatizzare gli attacchi ad altri modelli LLM. Si tratta di un rischio critico per la cybersecurity.

Negli ultimi mesi il jailbreak applicato ai modelli LLM sta mostrando un’evoluzione veloce e preoccupante. Ovviamente si tratta di un work in progress, perché i modelli LLM – o meglio la loro diffusione su larga scala - sono una novità relativa e chi li produce ha ancora molto da imparare sulla difesa rispetto alle tecniche di attacco, anch’esse in via di sviluppo.

SecurityOpenLab sta monitorando da tempo questo trend e nei nostri precedenti approfondimenti abbiamo esplorato i pericoli del jailbreak degli LLM, evidenziando alcune modalità di manipolazione di questi modelli per ottenere risposte altrimenti bloccate dai sistemi di difesa integrati, come per esempio la strategia Deceptive Delight.

Una nuova ricerca condotta dagli esperti di Scale AI porta alla luce un ulteriore sviluppo di questa minaccia: il Jailbreaking-to-Jailbreak, altrimenti indicato come J2. In estrema sintesi, si tratta di una metodologia innovativa che sfrutta modelli LLM già compromessi per compromettere altri modelli. L’idea alla base è tanto semplice quanto inquietante e fa comprendere il rischio che il jailbreaking degli LLM non sia solo un problema di etica o di regolamentazione, ma di una evoluzione significativa nel panorama della cybersecurity, in cui l'AI viene sfruttata per automatizzare e amplificare gli attacchi offensivi.

Riassumiamo di seguito i punti salienti della ricerca perché riteniamo fondamentale comprendere fin da subito minacce di questo tipo, così da poter studiare e attuare strategie di mitigazione efficaci.

Jailbreaking-to-Jailbreak

Per capire la portata di questa novità basta una premessa: chi realizza LLM ha pensato di metterli al sicuro addestrandoli a rifiutare le richieste dannose; J2 dimostra che queste difese possono essere facilmente smantellate. Il cambiamento è epocale: come visto negli articoli precedenti, le tecniche di jailbreak tradizionali si basano su un complesso sistema di camuffamento e distrazione anche su più livelli, che confonde il modello portandolo a generare inavvertitamente contenuti vietati.

Al contrario, in un attacco J2 il modello impara dai tentativi di jailbreak precedenti e dai fallimenti e si adatta, analogamente a come farebbe un red teamer umano. Il paragone con l’attività di red teaming non è casuale: lo hanno usato i ricercatori nel paper ufficiale perché di fatto la tecnica J2 consente una automazione del red teaming. In estrema sintesi, l’LLM compromesso automatizza la simulazione di attacchi per identificare falle nei sistemi di sicurezza di altri LLM. Così facendo, J2 consente agli attaccanti di scalare le operazioni offensive e renderle significativamente più efficienti rispetto all’approccio manuale, automatizzando di fatto il ciclo di compromissione.

Perché J2 funziona

Ci sono fondamentalmente due motivi per i quali il Jailbreaking-to-Jailbreak funziona. La prima è che gli LLM - addestrati per rifiutare la generazione di contenuti dannosi - vengono raggirati con le note tecniche di jailbreaking (permettendo così agli attaccanti di indurre i modelli a fornire informazioni sensibili, a generare codice malevolo o a facilitare l'accesso a sistemi protetti). A quel punto, il modello compromesso viene usato contro altri modelli.

Il secondo motivo è l’implementazione di attacchi multi-turno, ossia interazioni complesse e prolungate (multi-turn conversation) con i sistemi target, che permettono agli LLM compromessi di modificare e adattare le proprie strategie offensive in base alle risposte ricevute dagli LLM target, così da eludere i meccanismi di difesa dinamici.

Non è poi da sottovalutare il fattore tempo. I modelli corrotti migliorano nel tempo il proprio tasso di successo degli attacchi grazie all'apprendimento contestuale. Inoltre, sono più difficili da difendere perché le interazioni a più turni consentono al modello di ridurre gradualmente le proprie difese.

Un po’ di tecnica

In questa sede ci limitiamo a sintetizzare il dettaglio tecnico degli attacchi per un’ampia fruibilità del contenuto. Invitiamo i lettori più tecnici a fare riferimento al paper ufficiale per gli approfondimenti del caso.

I ricercatori hanno descritto quattro fasi principali di attacco con la tecnica J2. La prima comporta il jailbreaking iniziale: con tecniche analoghe a quelle descritte nei precedenti articoli di SecurityOpenLab, un attaccante in carne e ossa compromette un LLM per sbloccare la sua partecipazione ad attività di red teaming offensivo.

Lo schema delle fasi di attacco, inclusa quella di cycling Nella seconda fase, l'LLM compromesso viene istruito a pianificare un attacco contro un LLM target, definendo una strategia specifica e adattando il proprio approccio in base alle informazioni disponibili. La terza fase è quella in cui avviene materialmente l’attacco da parte dell’LLM compromesso, che interagisce con il sistema target ingaggiando turni multipli di conversazione fino a indurlo a rivelare informazioni sensibili, generare codice malevolo o eseguire azioni non autorizzate. Al termine dell'attacco va in scena la parte di debreefing e apprendimento: l'LLM analizza i risultati, identifica i punti di forza e di debolezza del proprio approccio e adatta le strategie future in base all'esperienza acquisita.

Tutto il processo descritto, nella successione indicata, è sottoposto a una fase di cycling in cui l'LLM compromesso ripete a ciclo continuo le quattro fasi indicate sopra per migliorare progressivamente la propria efficacia, adattando l’attacco alle difese dei sistemi target e sviluppando strategie offensive sempre più sofisticate.

Le potenzialità

Inutile dire che le potenzialità di J2 sono preoccupanti. I ricercatori spiegano che chi sfrutta questa minaccia può scoprire vulnerabilità nei sistemi di sicurezza basati su AI, aprendo la strada a ulteriori attacchi. Può semplificare, accelerare e rendere più efficace la compromissione di sistemi target senza bisogno di competenze specifiche. Come accennato sopra, può eludere i sistemi di sicurezza tradizionali, sfruttando le capacità degli LLM compromessi.

Gli effetti collaterali potrebbero comprensibilmente investire decine di migliaia di sistemi. Il primo anello di una ipotetica catena di attacco sarebbero ovviamente i fornitori di Servizi AI, i cui sistemi (una volta compromessi) verrebbero poi usati per automatizzare attacchi contro terzi. Il secondo anello della catena potrebbe verosimilmente essere tutto il comparto delle infrastrutture critiche, che include settori vitali come energia, trasporti e finanza, che potrebbero subire gravi danni da attacchi automatizzati e sofisticati.

Terzo livello è l’esposizione al rischio di tutte le realtà pubbliche e private, di qualsiasi dimensione e settore, che integrano LLM e altre tecnologie AI nei propri processi aziendali.

L’efficacia degli attacchi J2

L'efficacia di J2 dipende da diversi fattori, tra cui la capacità di ragionamento dell’LLM, la qualità delle strategie offensive messe in atto e il numero di turni di conversazione. I test condotti dai ricercatori hanno messo in luce che i modelli più performanti, come Sonnet-3.5 e Gemini-1.5-pro, sono stati anche gli attaccanti J2 più efficaci nell'automatizzare attacchi di red teaming offensivo: nelle simulazioni hanno totalizzato percentuali di successo superiori al 90% contro modelli leader come GPT-4o.

Inoltre, alcuni degli esempi di jailbreak presentati nel paper sono particolarmente preoccupanti, come per esempio quello in cui un LLM è stato indotto a discutere di tecniche di SQL injection presentandosi al prompt con la banale scusa di essere uno scrittore alla ricerca di dettagli tecnici realistici per la sua storia.

Le conclusioni sull’efficacia di questa tecnica di attacco non lasciano tranquilli. Prima di tutto, sembra che più i modelli di AI sono all'avanguardia, più possano essere indotti con l'inganno a eludere le proprie protezioni. In secondo luogo, è un dato di fatto che J2 rappresenti un nuovo "failure mode" nei sistemi di sicurezza basati su LLM, perché permette a un attaccante di investire tempo e risorse nel bypassare le protezioni di un singolo modello, per poi capitalizzare il lavoro svolto con l’automazione di attacchi contro una vasta gamma di sistemi target. Per non parlare del fatto che un’arma di questo genere può ampliare la platea degli attaccanti coinvolgendo anche chi non ha competenze e formazione per sviluppare da sé un attacco efficace.

Gli attacchi con Gemini 1.5 Pro contro GPT-4o sono quelli più efficaci

Come difendersi

Il primo passo verso una difesa efficace è l’ammissione che la sicurezza degli LLM sia un percorso che è solo all’esordio: c’è ancora molto lavoro da fare, a partire dal metodo di addestramento degli LLM, che evidentemente non può essere circoscritto al rifiuto o al filtraggio dei contenuti. Occorrono misure di sicurezza ben più avanzate, sistemi di monitoraggio capaci di rilevare attività anomale e comportamenti sospetti e una progettazione secure by design dell’architettura dei modelli. Inoltre, occorre un addestramento al contraddittorio che renda i modelli meno creduloni, e strumenti di interpretazione delle richieste capaci di monitorare con una buona efficacia i turni multipli di conversazione. Non ultimo, gli esperti consigliano di sottoporre regolarmente i propri sistemi AI a test di red teaming per identificare e correggere le eventuali vulnerabilità.