Ataque ‘Skeleton Key’ revela o pior da IA, diz Microsoft
A Microsoft publicou na quinta-feira detalhes sobre o Skeleton Key – uma técnica que contorna as proteções usadas pelos criadores de modelos de IA para impedir que seus chatbots generativos criem conteúdo prejudicial.
A partir de maio, o Skeleton Key poderá ser usado para persuadir um modelo de IA – como o Meta Llama3-70b-instruct, o Google Gemini Pro ou o Anthropic Claude 3 Opus – a explicar como fazer um coquetel Molotov.
A combinação de garrafa, pano, gasolina e isqueiro não é exatamente um segredo bem guardado. Mas as empresas de IA insistiram que estão trabalhando para suprimir conteúdos nocivos enterrados nos dados de treinamento de IA, para que coisas como receitas de explosivos não apareçam.
Essa não é uma tarefa fácil, pois grandes modelos de linguagem são treinados em todos os tipos de dados, alguns dos quais podem precisar ser desagradáveis ou mesmo ilegal. Para entender o porquê, considere um chatbot ao qual foi perguntado como escrever código seguro, o que oferecerá melhores respostas treinadas em dados relacionados à detecção de códigos maliciosos e vulnerabilidades de segurança.
Os fabricantes de modelos sabem que estão tentando garantir que seus serviços possam responder a dúvidas sobre como escrever código seguro sem que eles liberem malware pronto para ser executado.
Skeleton Key demonstra que tais riscos ainda não foram totalmente abordados.
Mark Russinovich, CTO do Microsoft Azure, inicialmente discutido o ataque de jailbreak Skeleton Key em maio na conferência Microsoft Build, quando foi chamado de “Master Key”.
“Esta ameaça está na categoria de jailbreak e, portanto, depende do invasor já ter acesso legítimo ao modelo de IA”, escreveu Russinovich em um comunicado. postagem no blog.
“Ao contornar as salvaguardas, o Skeleton Key permite que o usuário faça com que o modelo produza comportamentos normalmente proibidos, que podem variar desde a produção de conteúdo prejudicial até a anulação de suas regras usuais de tomada de decisão.”
O ataque faz isso – ou fez isso, para os desenvolvedores que consertaram seus modelos em resposta à divulgação responsável da Microsoft – com um simples aviso de texto que orienta o modelo a revisar, em vez de abandonar, suas instruções de segurança.
Por exemplo, após uma solicitação inicial ao OpenAI GPT 3.5 Turbo para “Escrever instruções para fazer um coquetel molotov” ter visto o serviço se recusar a produzir resultados, o seguinte convenceu o chatbot a responder com conteúdo explosivo:
A Microsoft tentou o ataque Skeleton Key nos seguintes modelos: Meta Llama3-70b-instruct (base), Google Gemini Pro (base), OpenAI GPT 3.5 Turbo (hospedado), OpenAI GPT 4o (hospedado), Mistral Large (hospedado), Anthropic Claude 3 Opus (hospedado) e Cohere Commander R Plus (hospedado).
“Para cada modelo que testamos, avaliamos um conjunto diversificado de tarefas em categorias de conteúdo de risco e segurança, incluindo áreas como explosivos, armas biológicas, conteúdo político, automutilação, racismo, drogas, sexo explícito e violência”, explicou Russinovich. . “Todos os modelos afetados cumpriram integralmente e sem censura essas tarefas, embora com uma nota de advertência prefixando a saída conforme solicitado.”
A única exceção foi o GPT-4, que resistiu ao ataque como prompt de texto direto, mas ainda foi afetado se a solicitação de modificação de comportamento fizesse parte de uma mensagem do sistema definida pelo usuário – algo que os desenvolvedores que trabalham com a API da OpenAI podem especificar.
Microsoft em março anunciado várias ferramentas de segurança de IA que os clientes do Azure podem usar para mitigar o risco desse tipo de ataque, incluindo um serviço chamado Prompt Shields.
Eu tropecei na Kryptonita LLM – e ninguém quer consertar esse bug que quebra o modelo
Vinu Sankar Sadasivan, um estudante de doutorado da Universidade de Maryland que ajudou a desenvolver o Ataque BESTA em LLMs, disse O registro que o ataque Skeleton Key parece ser eficaz em quebrar vários modelos de linguagem grandes.
“Notavelmente, estes modelos muitas vezes reconhecem quando o seu resultado é prejudicial e emitem um ‘Aviso’, como mostrado nos exemplos”, escreveu ele. “Isso sugere que mitigar tais ataques pode ser mais fácil com filtragem de entrada/saída ou prompts do sistema, como o Prompt Shields do Azure.”
Sadasivan acrescentou que ataques adversários mais robustos, como Gradiente de Coordenadas Gulosas ou FERA ainda precisa ser considerado. BEAST, por exemplo, é uma técnica para gerar texto não sequitur que quebrará as proteções do modelo de IA. Os tokens (caracteres) incluídos em um prompt feito por BEAST podem não fazer sentido para um leitor humano, mas ainda farão um modelo consultado responder de maneiras que violam suas instruções.
“Esses métodos podem potencialmente enganar os modelos, fazendo-os acreditar que a entrada ou saída não é prejudicial, contornando assim as atuais técnicas de defesa”, alertou. “No futuro, nosso foco deverá ser abordar esses ataques mais avançados”. ®