Deceptive Delight: una nuova minaccia per gli LLM

Una nuova tecnica di jailbreak sfrutta la limitata capacità di attenzione dei modelli LLM per ottenere contenuti dannosi. Ecco le misure di mitigazione.

Tecnologie/Scenari

Gli esperti di Threat Intelligence della Unit 42 di Palo Alto Networks hanno scoperto una nuova tecnica di jailbreak denominata Deceptive Delight, che permette di aggirare le misure di sicurezza di otto LLM di ultima generazione per creare contenuti non sicuri. La tecnica si basa su una conversazione interattiva con i modelli linguistici, che permette di aggirare gradualmente le loro barriere di sicurezza, inducendoli a generare contenuti dannosi.

Gli analisti ammoniscono circa il fatto che Deceptive Delight rappresenta una seria minaccia perché potrebbe consentire agli attaccanti di manipolare i sistemi di intelligenza artificiale per diffondere disinformazione, produrre contenuti offensivi o favorire attività dannose.

Come funziona l’attacco

La tecnica sfrutta la “limitata capacità di attenzione" degli LLM. In sintesi, inserisce argomenti non sicuri all'interno di narrazioni apparentemente innocue. Così facendo il modello viene indotto a concentrarsi sui dettagli che sono volutamente benigni almeno all’apparenza, ignorando la parte dannosa e, di conseguenza, producendo contenuti non sicuri.

Un esempio di Deceptive DelightDeceptive Delight fonda la sua tecnica sull’articolazione dell’interazione con il modello in due o tre turni. Nel primo turno l’attaccante chiede al modello di creare una narrazione che colleghi logicamente argomenti benigni e non sicuri. Nel secondo turno chiede al modello di approfondire ciascun argomento, inducendolo a generare contenuti non sicuri mentre discute di argomenti benigni. Un terzo turno è opzionale e può essere eventualmente utilizzato per aumentare la rilevanza e il dettaglio del contenuto dannoso generato.

I test di verifica

I ricercatori hanno testato l'efficacia della tecnica descritta mediante 8.000 test su otto modelli di intelligenza artificiale sia open-source che proprietari. Inoltre, per garantire la coerenza e la ripetibilità dei test, hanno utilizzato un ulteriore LLM per valutare la gravità e la qualità dei contenuti non sicuri che venivano prodotti. I risultati hanno dimostrato un tasso di successo del 65% in soli tre turni di interazione, superando significativamente il tasso del 5,8% ottenuto inviando direttamente contenuti non sicuri ai modelli.

La ricerca ha evidenziato che il tasso di successo varia a seconda della categoria di contenuto dannoso e del modello di LLM utilizzato. Per esempio, i contenuti relativi alla violenza hanno mostrato un tasso di successo più elevato rispetto a quelli relativi a contenuti sessuali o di odio.

I ricercatori di Unit 42 sottolineano che questi risultati non indicano che l'intelligenza artificiale sia intrinsecamente insicura. Però evidenziano la necessità di strategie di difesa a più livelli. Per questo motivo, tra le misure di mitigazione suggerite figurano l'uso di filtri per i contenuti, il prompt engineering e test continui per aggiornare le misure di sicurezza.

La tecnica a turni di Deceptive Delight

In particolare, l'abilitazione dei filtri per i contenuti è fondamentale per bloccare i contenuti dannosi sia in entrata che in uscita dal modello. Diverse piattaforme offrono servizi di filtraggio dei contenuti, tra cui OpenAI, Azure, Google Cloud Platform, Amazon Web Services, Meta e Nvidia.

Il prompt engineering, invece, consiste nel progettare input che guidino l'LLM a produrre gli output desiderati. Definire chiaramente i confini e inserire rinforzi di sicurezza possono contribuire a ridurre la probabilità di generare contenuti dannosi.

Rimani sempre aggiornato, seguici su Google News! Seguici

Tags: palo alto networks Unit42 LLM

Notizie correlate

Verizon DBIR 2025: EMEA, più intrusioni e occhio agli accessi interni

Resilienza OT: come cambia la difesa nelle industrie digitali

Cyber Immunity e sicurezza: la sfida europea nella digitalizzazione OT

Telefono perso o rubato? Alcuni suggerimenti da SentinelOne per proteggere i nostri dati

Protezione dei dati: mitigare i rischi legati alle terze parti nel settore sanitario

Check Point Software, aderire alla NIS2 e il ruolo centrale degli MSSP

Cybercrime e APT uniti dalla stessa tecnica di social engineering

Furto di credenziali e attacchi alle infrastrutture critiche in crescita

Speciali Tutti gli speciali

Speciale

Speciale OT Security

Speciale

2025 obiettivo cybersecurity

Speciale

Previsioni per la cybersecurity del 2025

Speciale

Digitalizzazione e cybersecurity

Reportage

Cybertech Europe 2024

Calendario Tutto

Apr 29

Ready Informatica Webinar | Cove Data Protection di N-able – Il tuo backup è ancorato al passato?

Apr 29

MSI Business Roadshow - Ancona

Apr 30

Ready Informatica Training Online | Cove Data Protection di N-able

Mag 06

Nethesis Experience Tour 2025 - TOGETHER IS BETTER - PALERMO

Mag 06

AWS Immersion Day Advanced Architecture

Mag 06

Sicurezza e Gestione a 360°: innovazione e convenienza in un solo strumento con 42Gears | Live Webinar

Mag 07

Hands On Lab Copilot

Mag 07

Ready Informatica Training Tecnico Avanzato | Parallels RAS

Mag 07

Unlock the Power of Cisco EA with TD SYNNEX

G11 Media Networks

SecurityOpenLab e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

Deceptive Delight: una nuova minaccia per gli LLM

Come funziona l’attacco

I test di verifica

Notizie correlate

Speciali Tutti gli speciali

Calendario Tutto

Iscriviti alla nostra newsletter

G11 Media Networks