Reddit espera que o ajuste do robots.txt resolva o problema para assustar os raspadores de dados de treinamento de IA
Para muitos, o Reddit se tornou o repositório de conhecimento comunitário e de crowdsourcing, um fato que sem dúvida o tornou um alvo principal para startups de IA desesperadas por dados de treinamento.
Esta semana, Reddit anunciado estaria introduzindo medidas para impedir a raspagem não autorizada por essas organizações. Esses esforços incluirão um robots.txt atualizado – um arquivo encontrado na maioria dos sites que fornece instruções aos rastreadores da web sobre o que eles podem ou não indexar – “nas próximas semanas”. Se você estiver curioso, pode encontrar o robots.txt atual do Reddit aqui.
Deve-se observar que o robots.txt não pode forçar os scrapers a fazer nada; o conteúdo do arquivo é mais como diretrizes ou solicitações firmes. Os rastreadores da Web podem ser ignorados, então o Reddit diz que continuará limitando a taxa e/ou bloqueando o acesso de bots desonestos – presumivelmente incluindo aqueles que ignoram o robots.txt – ao site.
Na verdade, os rastreadores que evitam o robots.txt correm o risco de serem totalmente bloqueados, se possível, de sites em geral por seus administradores.
Essas medidas, por mais vagas que sejam no momento, parecem ser direcionadas especificamente àqueles que acessam o Reddit para obter ganhos comerciais. O site afirma que “atores de boa fé – como pesquisadores e organizações como o Internet Archive – continuarão a ter acesso ao conteúdo do Reddit para uso não comercial”.
O anúncio ocorre poucas semanas após o Reddit revelado uma nova política de conteúdo público, criada como uma forma de comunicar de forma mais transparente como os dados do usuário são usados e proteger a privacidade do usuário.
“Vemos cada vez mais entidades comerciais usando acesso não autorizado ou abusando do acesso autorizado para coletar dados públicos em massa, incluindo conteúdo público do Reddit”, disse o site.
Parece que os executivos do Reddit prefeririam que as partes interessadas pagassem pelo acesso com curadoria à sua mente coletiva de conhecimento, opinião, trolling e cultivo de carma, já que o anúncio termina com um discurso de vendas para seus planos de acesso a dados.
Como discutimos anteriormente, o treinamento de grandes modelos de linguagem, como GPT-4, Gemini ou Claude, requer uma quantidade prodigiosa de dados. Modelo Llama3 8B relativamente pequeno da Meta usado cerca de 15 trilhões de tokens.
Por causa disso, fornecer dados de treinamento de IA usados para construir esses modelos tornou-se uma proposta de negócio lucrativa. No mês passado, a Scale AI – que vende serviços de dados de IA, incluindo conjuntos de dados pré-rotulados – viu sua avaliação disparar para quase US$ 14 bilhões em meio a uma rodada de financiamento de US$ 1 bilhão liderada pela Nvidia, Amazon e Meta.
Entretanto, esta semana também assistimos ao formação de um grupo de comércio de dados de IA chamado Dataset Providers Alliance. Os membros do grupo incluem Rightsify, vAIsual, Pixta AI, Datarade, Global Copyright Exchange, Calliope Networks e Ado.
Naturalmente, o Reddit está interessado em lucrar com essa demanda, já tendo anunciado um acordo para vender acesso à API ao Google em um acordo supostamente vale US$ 60 milhões por ano. A primeira página da Internet no mês passado alcançado um acordo semelhante com a OpenAI, embora os termos do acordo não tenham sido divulgados.
A utilidade real dos dados do Reddit foi questionada nas últimas semanas após o início do Google citando postagens óbvias de trolls em suas respostas geradas por IA. Em um caso, o mecanismo de busca sugeriu adicionar “cola não tóxica” ao molho de pizza para evitar que o queijo grudasse.
O registro entrou em contato com o Reddit para comentar sobre seus esforços para bloquear web scrapers desonestos e sobre seus planos futuros. ®