Quanto è sicura l’AI? Ecco un framework per testarla

Fuga di informazioni, injection di prompt e generazione di output potenzialmente pericolosi sono tutti rischi legati all’uso di modelli di AI. Un nuovo framework permette di condurre test approfonditi per evidenziare le falle.

L'intelligenza artificiale sta trasformando numerosi settori, con applicazioni che spaziano dall'interazione con i clienti all'automazione dei processi aziendali. Tuttavia, l'adozione su larga scala di questi modelli introduce nuove sfide in termini di sicurezza e molte organizzazioni non sono ancora pienamente preparate ad affrontarle. In questo contesto si inserisce FuzzyAI, il framework open source di recente annunciato da CyberArk che offre un approccio strutturato per mettere alla prova i modelli di AI mediante input malevoli, così da permettere l’identificazione di potenziali punti deboli e il conseguente rafforzamento delle difese.

Il nuovo strumento distingue vulnerabilità nei modelli di AI utilizzati sia in ambito cloud che on-premises grazie a un fuzzer progettato per individuare difetti e vulnerabilità nel software e che si serve di oltre dieci diverse tecniche di attacco (tra cui il bypass dei filtri etici e l’esposizione di prompt di sistema nascosti), per valutare la robustezza dei modelli di AI. Grazie a queste funzionalità, il framework consente di evidenziare criticità come la fuga di informazioni, l'injection di prompt e la generazione di output potenzialmente pericolosi.

Un altro aspetto chiave di FuzzyAI è la possibilità di personalizzazione, che aziende e ricercatori possono fare aggiungendo metodologie di attacco specifiche per il proprio dominio. Inoltre, il progetto promuove un modello collaborativo, incentivando la partecipazione della comunità per sviluppare nuove tecniche di attacco e meccanismi di difesa, così da garantire un costante avanzamento delle capacità del framework.

Il framework si è dimostrato efficace nel jailbreak di tutti i principali modelli di AI testati ed è già disponibile come software open source sulla piattaforma GitHub di CyberArk Labs.