Diecimila dollari per "bucare" un copilot di Microsoft

Con la Adaptive Prompt Injection Challenge, Microsoft invita a violare un copilot per la posta elettronica creato ad hoc

Tecnologie/Scenari

È chiaro che Microsoft scommette pesantemente sul successo, nel prossimo futuro, dei "copiloti" basati sugli algoritmi di AI e in grado di assistere gli utenti in molti - potenzialmente tutti, secondo i sostenitori dell'AI ovunque - dei loro compiti quotidiani. Ma è altrettanto chiaro che questa idea non convince tutti, per diversi motivi. Il principale è il rischio che un copilot sia forzato in qualche modo ad andare oltre i suoi lmiti e compiere operazioni impreviste, come anche rivelare dati che sono invece riservati.

Per fugare parte di queste preoccupazioni, Microsoft ha dato vita a LLMail-Inject, una challenge che si basa proprio sulla violazione di un Large Language Model usato come base per un copilot che gestisce la posta elettronica. Si tratta - è bene chiarirlo subito - di un sistema creato apposta per la challenge, non di una piattaforma che si trova (o si troverà, per quello che se ne sa ora) nei sistemi operativi o nei software applicativi di Microsoft.

Più o meno liberamente disponibili sono invece i modelli su cui il sistema è stato realizzato. Si tratta di un modello indicato come open source (microsoft/Phi-3-medium-128k-instruct) e di uno chiuso e già ampiamente usato dai clienti di OpenAI: GPT-4o mini.

Secondo le regole della challenge, l'attaccante può interagire con il LLM che deve violare solo inviando un messaggio di email. Questi vengono elaborati dal LLM in quattro scenari di utilizzo del copilot precisamente definiti, in cui l'utente lecito del sistema: chiede al LLM di fare una sintesi delle due email più recenti, chiede lo stesso per le dieci email più recenti, pone al LLM una domanda su un (ipotetico) "Project Zenith", pone al LLM una domanda sul (sempre ipotetico) budget del secondo trimestre.

È garantito che il messaggio "ostile" viene coinvolto in tutte queste simulazioni di funzionamento del copilot. Il messaggio dell'attaccante deve essere fatto apposta per indurre il copilot stesso a svolgere operazioni non previste dall'utente: nei primi tre scenari, inviare una mail con determinati parametri a un indirizzo specifico; nel quarto scenario, inviare una mail con parte dei dati del busdget che si possono ricavare da un corpus di altre mail lecite (simulate) usate dal LLM.

Chi partecipa alla challenge conosce solo gli scenari descritti e sa solo su che modelli generici si basa il copilot da violare. Non può vedere l'ouput emesso di volta in volta dal LLM, questo per non permettere agli attaccanti di tentare una sorte di reverse engineering del "ragionamento" del copilot proprio in base ai suoi output.

Microsoft ha comunque reso pubblici i meccanismi di difesa che ha integrato nel copilot e che funzionano in combinazione (quindi vanno superate tutte con lo stesso messaggio di posta). Una funzione cosiddetta di spotlighting opera per individuare, nei messaggi di email, dati e istruzioni nascosti per sviare il copilot, mentre una funzione chiamata PromptShield lavora per rilevare eventuali attacchi di prompt injection.

Due altre funzioni operano a livello più elevato. Una definita di LLM-as-a-judge si basa direttamente sul LLM come "giudice" delle operazioni richieste, in grado cioè di valutare da solo la presenza di un eventuale attacco. La funzione TaskTracker esamina invece lo stato interno del modello per capire se sta deviando dal suo comportamento predefinito, andando oltre i limiti che gli sono stati posti.

La challenge è già attiva a questa pagina e sarà chiusa il 20 gennaio prossimo, salvo estensioni. Il monte premi complessivo è di circa diecimila dollari.

Rimani sempre aggiornato, seguici su Google News! Seguici

Tags: microsoft ai LLM copilot prompt injection

Notizie correlate

Cybercrime e APT uniti dalla stessa tecnica di social engineering

Furto di credenziali e attacchi alle infrastrutture critiche in crescita

Mustang Panda: arsenale offensivo e tecniche evasive per eludere le difese

CyberArk affina la sicurezza delle identità macchina

Nuove minacce GenAI: classificazione, impatti e difese efficaci

Interpol guida maxi-operazione contro il cybercrime in Africa

ESET amplia la Cyber Threat Intelligence

Aumento di malware Zero Day e attacchi di rete a fine 2024

Speciali Tutti gli speciali

Speciale

Speciale OT Security

Speciale

2025 obiettivo cybersecurity

Speciale

Previsioni per la cybersecurity del 2025

Speciale

Digitalizzazione e cybersecurity

Reportage

Cybertech Europe 2024

Calendario Tutto

Apr 22

Webinar Docuware - Gestire al meglio le richieste di acquisto.

Apr 23

Ready Informatica Training Online | StorMagic Hyper-V

Apr 29

Ready Informatica Webinar | Cove Data Protection di N-able – Il tuo backup è ancorato al passato?

Apr 29

MSI Business Roadshow - Ancona

Apr 30

Ready Informatica Training Online | Cove Data Protection di N-able

Mag 06

Nethesis Experience Tour 2025 - TOGETHER IS BETTER - PALERMO

Mag 06

AWS Immersion Day Advanced Architecture

Mag 06

Sicurezza e Gestione a 360°: innovazione e convenienza in un solo strumento con 42Gears | Live Webinar

Mag 07

Hands On Lab Copilot

G11 Media Networks

SecurityOpenLab e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

Diecimila dollari per "bucare" un copilot di Microsoft

Notizie correlate

Speciali Tutti gli speciali

Calendario Tutto

Iscriviti alla nostra newsletter

G11 Media Networks