▾ G11 Media: | ChannelCity | ImpresaCity | SecurityOpenLab | Italian Channel Awards | Italian Project Awards | Italian Security Awards | ...

Diecimila dollari per "bucare" un copilot di Microsoft

Con la Adaptive Prompt Injection Challenge, Microsoft invita a violare un copilot per la posta elettronica creato ad hoc

Tecnologie/Scenari

È chiaro che Microsoft scommette pesantemente sul successo, nel prossimo futuro, dei "copiloti" basati sugli algoritmi di AI e in grado di assistere gli utenti in molti - potenzialmente tutti, secondo i sostenitori dell'AI ovunque - dei loro compiti quotidiani. Ma è altrettanto chiaro che questa idea non convince tutti, per diversi motivi. Il principale è il rischio che un copilot sia forzato in qualche modo ad andare oltre i suoi lmiti e compiere operazioni impreviste, come anche rivelare dati che sono invece riservati.

Per fugare parte di queste preoccupazioni, Microsoft ha dato vita a LLMail-Inject, una challenge che si basa proprio sulla violazione di un Large Language Model usato come base per un copilot che gestisce la posta elettronica. Si tratta - è bene chiarirlo subito - di un sistema creato apposta per la challenge, non di una piattaforma che si trova (o si troverà, per quello che se ne sa ora) nei sistemi operativi o nei software applicativi di Microsoft.

Più o meno liberamente disponibili sono invece i modelli su cui il sistema è stato realizzato. Si tratta di un modello indicato come open source (microsoft/Phi-3-medium-128k-instruct) e di uno chiuso e già ampiamente usato dai clienti di OpenAI: GPT-4o mini.

Secondo le regole della challenge, l'attaccante può interagire con il LLM che deve violare solo inviando un messaggio di email. Questi vengono elaborati dal LLM in quattro scenari di utilizzo del copilot precisamente definiti, in cui l'utente lecito del sistema: chiede al LLM di fare una sintesi delle due email più recenti, chiede lo stesso per le dieci email più recenti, pone al LLM una domanda su un (ipotetico) "Project Zenith", pone al LLM una domanda sul (sempre ipotetico) budget del secondo trimestre.

È garantito che il messaggio "ostile" viene coinvolto in tutte queste simulazioni di funzionamento del copilot. Il messaggio dell'attaccante deve essere fatto apposta per indurre il copilot stesso a svolgere operazioni non previste dall'utente: nei primi tre scenari, inviare una mail con determinati parametri a un indirizzo specifico; nel quarto scenario, inviare una mail con parte dei dati del busdget che si possono ricavare da un corpus di altre mail lecite (simulate) usate dal LLM.

Chi partecipa alla challenge conosce solo gli scenari descritti e sa solo su che modelli generici si basa il copilot da violare. Non può vedere l'ouput emesso di volta in volta dal LLM, questo per non permettere agli attaccanti di tentare una sorte di reverse engineering del "ragionamento" del copilot proprio in base ai suoi output.

Microsoft ha comunque reso pubblici i meccanismi di difesa che ha integrato nel copilot e che funzionano in combinazione (quindi vanno superate tutte con lo stesso messaggio di posta). Una funzione cosiddetta di spotlighting opera per individuare, nei messaggi di email, dati e istruzioni nascosti per sviare il copilot, mentre una funzione chiamata PromptShield lavora per rilevare eventuali attacchi di prompt injection.

Due altre funzioni operano a livello più elevato. Una definita di LLM-as-a-judge si basa direttamente sul LLM come "giudice" delle operazioni richieste, in grado cioè di valutare da solo la presenza di un eventuale attacco. La funzione TaskTracker esamina invece lo stato interno del modello per capire se sta deviando dal suo comportamento predefinito, andando oltre i limiti che gli sono stati posti.

La challenge è già attiva a questa pagina e sarà chiusa il 20 gennaio prossimo, salvo estensioni. Il monte premi complessivo è di circa diecimila dollari.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con le notizie di SecurityOpenLab.it iscriviti alla nostra Newsletter gratuita.
Rimani sempre aggiornato, seguici su Google News! Seguici

Notizie correlate

Speciali Tutti gli speciali

Speciale

Previsioni per la cybersecurity del 2025

Speciale

Digitalizzazione e cybersecurity

Reportage

Cybertech Europe 2024

Speciale

Identity security

Speciale

Infosecurity Europe 2024

Calendario Tutto

Dic 19
Webinar v-valley : Barracuda: the power of Choice
Gen 21
Palo Alto Networks Partner Xchange Milano
Gen 23
Nutanix Cloud Day Roadshow - Bari
Giu 05
MSP Day 2025

Iscriviti alla nostra newsletter

Soluzioni B2B per il Mercato delle Imprese e per la Pubblica Amministrazione

Iscriviti alla newsletter