Aplicativos GPT não divulgam coleta de dados, descobre estudo
Muitos dos aplicativos GPT na GPT Store da OpenAI coletam dados e facilitam o rastreamento online, violando as políticas da OpenAI, afirmam pesquisadores.
Boffins da Universidade de Washington em St. Louis, Missouri, analisaram recentemente quase 120.000 GPTs e mais de 2.500 Ações — serviços incorporados — ao longo de um período de quatro meses e encontraram uma coleta de dados abrangente que é contrária às regras da OpenAI e muitas vezes documentada de forma inadequada nas políticas de privacidade.
Os pesquisadores – Evin Jaff, Yuhao Wu, Ning Zhang e Umar Iqbal – descrevem suas descobertas em um papel intitulado “Exposição de dados de aplicativos LLM: uma investigação aprofundada dos GPTs da OpenAI”.
“Nossas medições indicam que as divulgações da maioria dos tipos de dados coletados são omitidas nas políticas de privacidade, com apenas 5,8% das Ações divulgando claramente suas práticas de coleta de dados”, afirmam os autores.
Os dados coletados incluem informações sensíveis, como senhas. E os GPTs que fazem isso frequentemente incluem Ações para rastreamento e análise de anúncios – uma fonte comum de problemas de privacidade nos ecossistemas de aplicativos móveis e da web.
“Nosso estudo identifica vários problemas de privacidade e segurança no ecossistema OpenAI GPT, e problemas semelhantes também foram observados por outros”, disse Yuhao Wu, candidato ao terceiro ano de doutorado em ciência da computação na Universidade de Washington. O Registro.
“Embora alguns desses problemas tenham sido abordados após serem destacados, a existência de tais questões sugere que certas decisões de design não priorizaram adequadamente a segurança e a privacidade. Além disso, embora a OpenAI tenha políticas em vigor, há uma falta de aplicação consistente, o que exacerba essas preocupações.”
A OpenAI Store, que inaugurado oficialmente em janeirohospeda GPTs, que são modelos de transformadores pré-treinados generativos (GPT) baseados no ChatGPT da OpenAI. A maioria dos cerca de três milhões de GPTs na loja foi personalizada por desenvolvedores terceirizados para executar alguma função específica, como analisar dados do Excel ou escrever código.
Uma pequena parcela dos GPTs (4,6 por cento dos mais de 3 milhões) implementa Açõesque fornecem uma maneira de traduzir os dados estruturados de serviços de API para o vernáculo de um modelo que aceita e emite linguagem natural. Ações “convertem texto de linguagem natural no esquema json necessário para uma chamada de API”, como diz a OpenAI.
A maioria das Ações (82,9 por cento) incluídas nos GPTs estudados vêm de terceiros. E esses terceiros parecem, em grande parte, não se preocupar com privacidade ou segurança de dados.
De acordo com os pesquisadores, “um número significativo de Ações coleta dados relacionados à atividade do usuário no aplicativo, informações pessoais e navegação na web”.
“Os dados de atividade do aplicativo consistem em dados gerados pelo usuário (por exemplo, conversas e palavras-chave da conversa), preferências ou configurações para as Ações (por exemplo, preferências para classificar resultados de pesquisa) e informações sobre a plataforma e outros aplicativos (por exemplo, outras ações incorporadas em um GPT). As informações pessoais incluem dados demográficos (por exemplo, raça e etnia), PII (por exemplo, endereços de e-mail) e até mesmo senhas de usuários; o histórico de navegação na web se refere aos dados relacionados aos sites visitados pelo usuário usando GPTs.”
Pelo menos 1% dos GPTs estudados coletam senhas, observam os autores, embora aparentemente como uma questão de conveniência (para permitir login fácil) e não para fins maliciosos.
No entanto, os autores argumentam que mesmo essa captura não adversarial de senhas aumenta o risco de comprometimento, porque essas senhas podem ser incorporadas aos dados de treinamento.
“Nós identificamos GPTs que capturaram senhas de usuários”, explicou Wu. “Nós não investigamos se elas foram abusadas ou capturadas com intenção de abuso. Independentemente de haver abuso intencional, senhas de texto simples e chaves de API sendo capturadas dessa forma são sempre grandes riscos de segurança.
“No caso de LLMs, senhas em texto simples em conversas correm o risco de serem incluídas em dados de treinamento, o que pode resultar em vazamento acidental. Serviços no OpenAI que desejam usar contas ou mecanismos semelhantes têm permissão para usar OAuth para que um usuário possa conectar uma conta, então consideraríamos isso, no mínimo, como evasão/práticas de segurança ruins por parte do desenvolvedor.”
Fica pior. De acordo com o estudo, “já que as Ações são executadas em espaço de memória compartilhada em GPTs, elas têm acesso irrestrito aos dados umas das outras, o que permite que elas os acessem (e também potencialmente influenciem a execução umas das outras.”
Depois, há o fato de que as Ações são incorporadas em vários GPTs, o que lhes permite – potencialmente – coletar dados em vários aplicativos e compartilhar esses dados com outras Ações. Esse é exatamente o tipo de acesso a dados que minou a privacidade dos usuários de aplicativos móveis e da web.
Os pesquisadores observam que a OpenAI parece estar prestando atenção aos GPTs não compatíveis com base na remoção de 2.883 GPTs durante o período de rastreamento de quatro meses – de 8 de fevereiro a 3 de maio de 2024.
No entanto, eles concluem que os esforços da OpenAI para manter o crescimento de seu ecossistema são insuficientes. Eles argumentam que, embora a empresa exija que os GPTs cumpram as leis de privacidade de dados aplicáveis, ela não fornece aos GPTs os controles necessários para que os usuários exerçam seus direitos de privacidade e não isola suficientemente a execução de Ações para evitar a exposição de dados entre diferentes Ações incorporadas em um GPT.
“Nossas descobertas destacam que aplicativos e terceiros coletam dados excessivos”, disse Wu. “Infelizmente, é uma prática padrão em muitas plataformas existentes, como dispositivos móveis e web. Nossa pesquisa destaca que essas práticas também estão se tornando predominantes em plataformas emergentes baseadas em LLM. É por isso que não relatamos à OpenAI.
“Em casos em que descobrimos práticas, onde os desenvolvedores poderiam tomar medidas, nós os reportamos. Por exemplo, no caso de um GPT, suspeitamos que ele pode não estar hospedado pelo serviço real que ele alega ser, então reportamos ao serviço certo para verificar.”
A OpenAI não respondeu a uma solicitação de comentário. ®