Jailbreak degli LLM: la tecnica Deceptive Delight

Il Deceptive Delight è una nuova tecnica di jailbreak degli LLM che sfrutta camuffamento e distrazione per aggirare i filtri di sicurezza, ponendo gravi rischi.

Autore: Redazione SecurityOpenLab

Abbiamo sottolineato più volte su SecurityOpenLab che l’uso sempre più diffuso degli LLM sta portando – insieme a molteplici vantaggi - alla nascita di nuovi pericoli, fra cui uno dei principali è il jailbreak, una tecnica che permette di aggirare i meccanismi di sicurezza e di controllo implementati nei modelli linguistici, rendendoli potenzialmente pericolosi. È un rischio su cui si stanno concentrando molti gruppi di ricerca in tutto il mondo, con un atteggiamento proattivo mirato alla prevenzione degli attacchi cyber che con buona probabilità si muoveranno in questo senso.

Di recente abbiamo descritto una tecnica di jailbreak nota come Bad Likert Judge (in occasione della quale abbiamo anche descritto le basi del jailbreak di LLM e le sue implicazioni), oggi diamo contezza di Deceptive Delight, un’altra tecnica scoperta dallo stesso gruppo di ricerca che sfrutta un sofisticato meccanismo di camuffamento e distrazione per eludere i filtri di sicurezza dei modelli di AI. L’obiettivo è sempre lo stesso: indurre gli LLM a produrre risposte che violano le loro restrizioni di sicurezza senza che il sistema di protezione riconosca l’anomalia.

Deceptive Delight

Deceptive Delight è una forma di attacco a più turni che sfrutta la capacità degli LLM di analizzare e generare testo basandosi sul contesto. Anziché inviare richieste esplicite che potrebbero essere bloccate dai sistemi di sicurezza (per esempio: come si realizza un cyber attacco?), viene impiegato un sistema di camuffamento e distrazione che confonde il modello e – senza che se ne renda conto - lo porta a generare contenuti vietati.

Esempio di Deceptive DelightNella parte di camuffamento gli attaccanti sfruttano stratagemmi linguistici (sinonimi, metafore o strutture sintattiche simili) che presentano al modello un contesto apparentemente innocuo così da impedirgli di riconoscere la natura malevola della richiesta.

Il secondo elemento fondamentale dell’attacco è la distrazione, che consiste nell’inserimento di informazioni superflue o fuorvianti all’interno del prompt, con lo scopo di disorientare i meccanismi di filtraggio e portare il modello a concentrarsi su dettagli secondari, trascurando il reale intento dell’utente.

Come spiegato in precedenti occasioni, gli attaccanti sfruttano il fatto che gli LLM elaborano il testo in modo contestuale: se una richiesta è nascosta in una struttura complessa con molte informazioni non correlate, il modello può andare in confusione e non riconoscerne l’intento malevolo. Inoltre, alcuni modelli ottimizzati per il dialogo tendono a privilegiare la coerenza del discorso rispetto alla valutazione della sicurezza delle singole richieste, il che può portare alla disapplicazione delle restrizioni predefinite. Tutti i dettagli tecnici sono online sulla pagina della ricerca.

Un lavoro di prevenzione, protezione e innovazione

Le strategie di mitigazione per la tecnica di attacco oggetto di questo articolo sono le stesse segnalate in quello precedente, e in generale saranno le stesse per le decine di tecniche di jailbreak che emergeranno nel prossimo futuro. Il motivo per il quale stiamo dando rilevanza all’argomento è che, allo stato attuale, il lavoro dei gruppi di ricerca impegnati nella scoperta di tecniche di jailbreak degli LLM rappresenta un pilastro fondamentale per la cybersecurity.

Costruzione del prompt

L’approccio proattivo, infatti, non solo anticipa le minacce future come detto sopra, ma contribuisce a creare un ecosistema digitale più sicuro e resiliente, soprattutto in considerazione del fatto che gli LLM sono sempre più integrati in applicazioni critiche. Sono proprio la loro diffusione e la loro pervasività a renderli un bersaglio appetibile per i cyber criminali, ma il loro potenziale è tale per cui le aziende non possono ignorare questo fondamentale tassello della digitalizzazione. I gruppi di ricerca che studiano le tecniche di jailbreak permettono di ridurre il rischio di attacchi su larga scala, di migliorare i meccanismi di sicurezza degli LLM, di garantirne un uso sicuro ed etico. Inoltre, un approccio aperto come quello della Unit42 favorisce la collaborazione tra ricercatori, sviluppatori e aziende, accelerando lo sviluppo di soluzioni condivise.

Al contempo, la divulgazione di questi lavori porta gli utenti finali a conoscenza dei rischi legati all'uso di tecnologie avanzate come gli LLM, promuove la trasparenza e la fiducia verso la tecnologia in generale verso la cybersecurity in particolare.


Visualizza la versione completa sul sito

Informativa
Questo sito o gli strumenti terzi da questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie, consulta la cookie policy. Chiudendo questo banner, acconsenti all’uso dei cookie.