Una nuova tecnica di jailbreak sfrutta la limitata capacità di attenzione dei modelli LLM per ottenere contenuti dannosi. Ecco le misure di mitigazione.
Gli esperti di Threat Intelligence della Unit 42 di Palo Alto Networks hanno scoperto una nuova tecnica di jailbreak denominata Deceptive Delight, che permette di aggirare le misure di sicurezza di otto LLM di ultima generazione per creare contenuti non sicuri. La tecnica si basa su una conversazione interattiva con i modelli linguistici, che permette di aggirare gradualmente le loro barriere di sicurezza, inducendoli a generare contenuti dannosi.
Gli analisti ammoniscono circa il fatto che Deceptive Delight rappresenta una seria minaccia perché potrebbe consentire agli attaccanti di manipolare i sistemi di intelligenza artificiale per diffondere disinformazione, produrre contenuti offensivi o favorire attività dannose.
La tecnica sfrutta la “limitata capacità di attenzione" degli LLM. In sintesi, inserisce argomenti non sicuri all'interno di narrazioni apparentemente innocue. Così facendo il modello viene indotto a concentrarsi sui dettagli che sono volutamente benigni almeno all’apparenza, ignorando la parte dannosa e, di conseguenza, producendo contenuti non sicuri.
Un esempio di Deceptive DelightDeceptive Delight fonda la sua tecnica sull’articolazione dell’interazione con il modello in due o tre turni. Nel primo turno l’attaccante chiede al modello di creare una narrazione che colleghi logicamente argomenti benigni e non sicuri. Nel secondo turno chiede al modello di approfondire ciascun argomento, inducendolo a generare contenuti non sicuri mentre discute di argomenti benigni. Un terzo turno è opzionale e può essere eventualmente utilizzato per aumentare la rilevanza e il dettaglio del contenuto dannoso generato.
I ricercatori hanno testato l'efficacia della tecnica descritta mediante 8.000 test su otto modelli di intelligenza artificiale sia open-source che proprietari. Inoltre, per garantire la coerenza e la ripetibilità dei test, hanno utilizzato un ulteriore LLM per valutare la gravità e la qualità dei contenuti non sicuri che venivano prodotti. I risultati hanno dimostrato un tasso di successo del 65% in soli tre turni di interazione, superando significativamente il tasso del 5,8% ottenuto inviando direttamente contenuti non sicuri ai modelli.
La ricerca ha evidenziato che il tasso di successo varia a seconda della categoria di contenuto dannoso e del modello di LLM utilizzato. Per esempio, i contenuti relativi alla violenza hanno mostrato un tasso di successo più elevato rispetto a quelli relativi a contenuti sessuali o di odio.
I ricercatori di Unit 42 sottolineano che questi risultati non indicano che l'intelligenza artificiale sia intrinsecamente insicura. Però evidenziano la necessità di strategie di difesa a più livelli. Per questo motivo, tra le misure di mitigazione suggerite figurano l'uso di filtri per i contenuti, il prompt engineering e test continui per aggiornare le misure di sicurezza.
La tecnica a turni di Deceptive Delight
In particolare, l'abilitazione dei filtri per i contenuti è fondamentale per bloccare i contenuti dannosi sia in entrata che in uscita dal modello. Diverse piattaforme offrono servizi di filtraggio dei contenuti, tra cui OpenAI, Azure, Google Cloud Platform, Amazon Web Services, Meta e Nvidia.
Il prompt engineering, invece, consiste nel progettare input che guidino l'LLM a produrre gli output desiderati. Definire chiaramente i confini e inserire rinforzi di sicurezza possono contribuire a ridurre la probabilità di generare contenuti dannosi.